1 簡介
Hive是基于Hadoop的一個資料倉庫工具,可以将結構化的資料檔案映射為一張資料庫表,并提供簡單的[SQL]查詢功能,可以将SQL語句轉換為MapReduce任務進行運作。其優點是學習成本低,可以通過類SQL語句快速實作簡單的MapReduce統計,不必開發專門的MapReduce應用,十分适合資料倉庫的統計分析。
它提供了一系列的工具,可以用來進行資料提取轉化加載(ETL),這是一種可以存儲、查詢和分析存儲在 Hadoop 中的大規模資料的機制。Hive 定義了簡單的類 SQL 查詢語言,稱為 HQL,它允許熟悉 SQL 的使用者查詢資料。同時,這個語言也允許熟悉 MapReduce 開發者的開發自定義的 mapper 和 reducer 來處理内建的 mapper 和 reducer 無法完成的複雜的分析工作。
Hive 沒有專門的資料格式。 Hive 可以很好的工作在 Thrift 之上,控制分隔符,也允許使用者指定資料格式。
Apache Hive起初由[Facebook]開發,目前也有其他公司使用和開發Apache Hive,例如[Netflix]等。
亞馬遜公司也開發了一個定制版本的Apache Hive,亞馬遜網絡服務包中的Amazon Elastic MapReduce包含了該定制版本。
2 環境
- 作業系統
-
Hadoop版本
hadoop-2.6.0-cdh5.7.0
- MySQL版本
-
mysql-connector-java
5.1.37
-
Hive版本
2.3.4
3 安裝Hive
3.1 先確定已經正确安裝并運作了hadoop
3.2 下載下傳Hive安裝包
官網下載下傳将安裝包移動至:
../hadoop-2.6.0-cdh5.7.0/ 目錄下,此目錄是本地安裝Hadoop的目錄
移動至此處後,解壓縮
- tar -xzvf apache-hive-2.3.4-bin.tar.gz
并将解壓後的檔案名改為hive,友善配置。
例如本機Hive的安裝路徑為
3.3 配置系統環境變量
3.3.1 修改~/.bash_profile
// 或者修改/etc/profile檔案
vim ~/.bash_profile
添加内容
export HIVE_HOME=/Volumes/doc/hadoop-2.6.0-cdh5.7.0/hive
export PATH=$PATH:$HIVE_HOME/bin:$HIVE_HOME/conf
退出儲存後,在終端輸入,使環境變量立即生效
source ~/.bash_profile
4 修改Hive配置
4.1 建立檔案hive-site.xml
- 在 ../hive/conf下
- 添加
内容hive-site.xml
4.2 hive-env.sh
- 複制hive-env.sh.template為hive-env.sh
- 修改hive-env.sh内容
5 MySQL 權限配置
5.1 給使用者賦予權限
- 以使得該使用者可以遠端登入資料庫:
如果上面查詢到有資訊,但host為localhost或其他值,就需要根據實際需求來更新表資訊
grant all privileges on 庫名.表名 to '使用者名'@'IP位址' identified by '密碼' with grant option;
flush privileges;
庫名:要遠端通路的資料庫名稱,所有的資料庫使用“*”
表名:要遠端通路的資料庫下的表的名稱,所有的表使用“*”
使用者名:要賦給遠端通路權限的使用者名稱
IP位址:可以遠端通路的電腦的IP位址,所有的位址使用“%”
密碼:要賦給遠端通路權限的使用者對應使用的密碼
GRANT ALL PRIVILEGES ON *.* TO 'root'@'%' WITH GRANT OPTION;
使改變立即生效:
FLUSH PRIVILEGES;
6 向/usr/hadoop/hadoop-2.6.2/hive/lib中添加mySql連接配接庫:
6.1 官網下載下傳連接配接驅動包
6.2 将下好的包解壓縮
- 解壓後,将此檔案夾下mysql-connector-java-8.0.15.jar
- 複制到../hive/lib下
注意:需要給/tmp檔案夾設定寫權限,同時確定 hadoop不在安全模式下,可以執行此指令使hadoop退出安全模式:hadoop dfsadmin -safemode leave
7 啟動Hive
在指令行運作 hive 指令時必須保證HDFS 已經啟動。可以使用 start-dfs.sh 腳本來啟動 HDFS。
7.1 如果是第一次啟動Hive,則需要先執行如下初始化指令
schematool -dbType mysql -initSchema
7.2 啟動Hive
# 完成基本的環境配置!