天天看点

《Hadoop大数据分析与挖掘实战》——3.1节概述

本节书摘来自华章社区《hadoop大数据分析与挖掘实战》一书中的第3章,第3.1节概述,作者张良均 樊哲 赵云龙 李成华 ,更多章节内容可以访问云栖社区“华章社区”公众号查看

3.1 概述

3.1.1 hive简介

hive最初是应facebook每天产生的海量新兴社会网络数据进行管理和机器学习的需求而产生和发展的,是建立在hadoop上的数据仓库基础构架。作为hadoop的一个数据仓库工具,hive可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能。

hive作为构建在hadoop之上的数据仓库,它提供了一系列的工具,可以用来进行数据提取转化加载(etl),这是一种可以存储、查询和分析存储在hadoop中的大规模数据的机制。hive定义了简单的类sql查询语言,称为hql,它允许熟悉sql的用户查询数据。同时,该语言也允许熟悉mapreduce的开发者开发自定义的mapper和reducer来处理内建的mapper和reducer无法完成的复杂的分析工作。

hive没有专门的数据格式。hive可以很好地工作在thrift之上,控制分隔符,也允许用户指定数据格式。

hive具有以下特点:

支持索引,加快数据查询。

不同的存储类型,如纯文本文件、hbase中的文件。

将元数据保存在关系数据库中,大大减少了在查询过程中执行语义检查的时间。

可以直接使用存储在hadoop文件系统中的数据。

内置大量用户函数udf来操作时间、字符串和其他的数据挖掘工具,支持用户扩展udf函数来完成内置函数无法实现的操作。

类sql的查询方式,将sql查询转换为mapreduce的job在hadoop集群上执行。

hive构建在基于静态批处理的hadoop之上,hadoop通常都有较高的延迟并且在作业提交和调度时需要大量的开销。因此,hive并不能够在大规模数据集上实现低延迟快速的查询。例如,hive在几百mb的数据集上执行查询一般有分钟级的时间延迟。因此,hive并不适合那些需要低延迟的应用,如联机事务处理(oltp)。hive查询操作过程严格遵守hadoop mapreduce的作业执行模型,hive将用户的hiveql语句通过解释器转换为mapreduce作业提交到hadoop集群上,hadoop监控作业执行过程,然后返回作业执行结果给用户。hive并非为联机事务处理而设计,hive并不提供实时的查询和基于行级的数据更新操作。hive的最佳使用场合是大数据集的批处理作业,如网络日志分析。

3.1.2 hive安装与配置

使用表3-1中的软件版本进行配置。

《Hadoop大数据分析与挖掘实战》——3.1节概述

同时,查看mysql表中的hive数据库,可以看到hive建立的meta表,如图3-1所示。

《Hadoop大数据分析与挖掘实战》——3.1节概述

如果出现下面的错误,即说明配置hive出错,参考上面的配置即可。