hive 底层与数据库交互原理

2023-04-23 01:22:58

Hive 的查询功能是由 hdfs 和 mapreduce 结合起来实现的，对于大规模数据查询还是不建议在 hive 中，因为过大数据量会造成查询十分缓慢。 Hive 与 mysql 的关系：只是借用 mysql 来存储 hive 中的表的元数据信息，称为 metastore.

1）用户接口主要有三个：CLI，Client 和 WUI。

其中最常用的是CLI，Cli启动的时候，会同时启动一个Hive副本。Client是Hive的客户端，

用户连接至Hive Server。在启动 Client模式的时候，需要指出Hive Server所在节点，并且在该节点启动Hive Server。 WUI是通过浏览器访问Hive。

2）Hive将元数据存储在数据库中，如mysql、derby。

Hive中的元数据包括表的名字，表的列和分区及其属性，表的属性（是否为外部表等），表的数据所在目录等。

3）解释器、编译器、优化器完成HQL查询语句从词法分析、语法分析、编译、优化以及查询计划的生成。生成的查询计划存储在HDFS中，并在随后有MapReduce调用执行。

4）Hive的数据存储在HDFS中，大部分的查询、计算由MapReduce完成（包含*的查询，比如select * from tbl不会生成MapRedcue任务）。