文章目录
- Hadoop
- HDFS
- MapReduce
- Hive
Hadoop
HDFS
HDFS 分布式文件系统 读取和写入原理介绍
HDFS中的角色
NameNode:名称节点
通常仅有一个,负责文件信息管理,切割文件,为文件分配指定位置保存。
DataNode:数据阶段
通常有多个,保存数据。
写入原理:
当有文件要写入到HDFS的时候,
首先NameNode将文件按照指定大小切割,
NameNode选取合适的DataNode列表,
写入第一快文件,
同时将该文件的第一个副本写入另一个DataNode,
再将第二个副本写入另另外一个DataNode。
最后一个副本写入成功后,依次通知上一个DataNode写入完毕,
第一个DataNode通知NameNode写入成功后,开始写入第二份文件。
读取原理:
当要读取文件的时候,NameNode找到该文件所有的存放位置,依次从头读取。
MapReduce
Hive
如图: