天天看点

hadoop权威指南-阅读笔记

一 Map-Reduce

两个阶段都是键值对。Map把数据打散,Reduce对相同键的数据做聚集计算。

二 HDFS

1.高延时,数据不可修改(追加)。

2.HDFS数据块128M,磁盘数据块512字节。

3. namenode:管理节点:维护系统树和整棵树内所有文件和目录。辅助namenode。

    datanode:工作节点:存储和检索数据块。datanode块扫描器(检查坏死磁盘)。

4. 均衡器

三 生态

1.Flume:从其他数据源向HDFS导入数据(事件型:如日志),按时间分区

2.sqoop:从结构化存储器向HDFS导入导出数据。sqoop连接器:支持sqoop从关系型数据库导入导出数据。

3.kettle:对数据etl操作,也可以导入导出数据。

4. pig:对数据操作和变换。

5.hive:用sql语言对hdfs上的数据查询。外部表:库外的表。数据分块:表->分区->桶。存储格式:行格式,文件格式。

6.hbase:在hdfs上开发的面向列的分布式数据库。解决实时访问大规模数据问题。非关系数据库,不支持sql,没有真正的索引,自动分区。

7.spark:实时计算。作业运行机制:driver,executor。driver负责托管应用,并为作业调度任务。executor专属于应用,在应用期间执行,执行该应用的任务。

Spark是大数据内存计算引擎。一个job计算一类计算。并由前端可视化管理。

可以简单理解Spark的数据类型为RDD。

对于RDD数据主要做三步运算:

(1)Map:将数据离散。

(2)Flat:将数据展开成一维。

(3)Reduce:对数据缩减/聚合后运算。

8.Zookepper:用来构建分布式应用,hadoop的分布式协调服务。运行模式:独立模式,复制模式:一般机器可用就可用。

继续阅读