hadoop权威指南-阅读笔记

2023-07-22 06:47:52

一 Map-Reduce

两个阶段都是键值对。Map把数据打散，Reduce对相同键的数据做聚集计算。

二 HDFS

1.高延时，数据不可修改（追加）。

2.HDFS数据块128M，磁盘数据块512字节。

3. namenode:管理节点：维护系统树和整棵树内所有文件和目录。辅助namenode。

datanode:工作节点：存储和检索数据块。datanode块扫描器（检查坏死磁盘）。

4. 均衡器

三生态

1.Flume:从其他数据源向HDFS导入数据（事件型：如日志），按时间分区

2.sqoop:从结构化存储器向HDFS导入导出数据。sqoop连接器：支持sqoop从关系型数据库导入导出数据。

3.kettle:对数据etl操作，也可以导入导出数据。

4. pig:对数据操作和变换。

5.hive:用sql语言对hdfs上的数据查询。外部表：库外的表。数据分块：表->分区->桶。存储格式：行格式，文件格式。

6.hbase:在hdfs上开发的面向列的分布式数据库。解决实时访问大规模数据问题。非关系数据库，不支持sql，没有真正的索引，自动分区。

7.spark:实时计算。作业运行机制：driver，executor。driver负责托管应用，并为作业调度任务。executor专属于应用，在应用期间执行，执行该应用的任务。

Spark是大数据内存计算引擎。一个job计算一类计算。并由前端可视化管理。

可以简单理解Spark的数据类型为RDD。

对于RDD数据主要做三步运算：

（1）Map：将数据离散。

（2）Flat：将数据展开成一维。

（3）Reduce：对数据缩减/聚合后运算。

8.Zookepper:用来构建分布式应用，hadoop的分布式协调服务。运行模式：独立模式，复制模式：一般机器可用就可用。

继续阅读