天天看點

Apache atlas內建CDH(hiveserver2和用戶端)管理中繼資料

Apache atlas 的作用和概念不再陳述位址;

官方文檔:atlas安裝文檔;

鄙人編譯安裝的是2.0的atlas;

一、CDH上內建atlas;

首先在CDH  hive配置參數如圖:

搜hive-site

Apache atlas內建CDH(hiveserver2和用戶端)管理中繼資料

hive環境變量配置hive-hook的相關jar包hive-hook相關jar:

Apache atlas內建CDH(hiveserver2和用戶端)管理中繼資料

看圖更貼切:

搜hive-en

Apache atlas內建CDH(hiveserver2和用戶端)管理中繼資料

報錯query: java.lang.NoClassDefFoundError: Could not initialize class org.apache.atlas.hive.hook.HiveHook (state=,code=0)

把配置加入到HOOK目錄下的atlas-plugin-classloader-1.1.0.jar 這個包:

zip -u atlas-plugin-classloader-1.1.0.jar  atlas-application.properties 

hiveserver2執行不再報錯,到此hiveserver2完成。

二、用戶端配置atlas

首先要有hadoop環境和hive環境,環境配置不再累述。

  • Set-up Atlas hook in hive-site.xml by adding the following:
<property>
    <name>hive.exec.post.hooks</name>
      <value>org.apache.atlas.hive.hook.HiveHook</value>
  </property>
           
  • Add 'export HIVE_AUX_JARS_PATH=

    <atlas package>

    /hook/hive' in hive-env.sh of your hive configuration
  • hive-en.sh 變量HIVE_AUX_JARS_PATH裡邊加入hive-hook的jar
  • 執行atlas的import-hive.sh  等待一會就回把hive的表結構資訊導進來了
  • 對hive的一些操作也會被實時記錄下來

到此用戶端配置告一段落 。。。。

  • Column level lineage works with Hive version 1.2.1 after the patch for HIVE-13112 is applied to Hive source
  • 字段級别的血緣隻能在hive1.2.1之後的版本使用(鄙人用的1.1的hive很是遺憾)

 The following hive operations are captured by hive hook currently

  • create database
  • create table/view, create table as select
  • load, import, export
  • DMLs (insert)
  • alter database
  • alter table (skewed table information, stored as, protection is not supported)
  • alter view

hive涉及增删改等等的操作記錄就會被atlas 實時監控起來。 

附血緣關系圖一張

Apache atlas內建CDH(hiveserver2和用戶端)管理中繼資料

繼續閱讀