hive中表狀态資料的擷取

在做容量規劃的時候，我們需要關注hive中表的占用空間大小，檔案數量，平均檔案大小，已及存儲格式，雖然在hive中也有statistcs的功能，但是值并準确（相比mysql的show table status相差很多）

我們可以通過一些簡單地方法去拿到這個值，比如通過hadoop fs -du 來擷取表占用的空間大小，通過hadoop fs -count擷取表的檔案數量,然後定期取值并load到資料庫中。

在中繼資料庫中，通過建立view來擷取資料庫，hdfs路徑，表類型，存儲格式等資訊

<code>CREATE</code> <code>OR</code> <code>REPLACE</code> <code>VIEW</code> <code>table_location_type </code><code>AS</code> <code>SELECT</code> <code>CONCAT_WS(</code><code>'.'</code><code>,a.</code><code>NAME</code><code>,b.TBL_NAME) </code><code>AS</code> <code>db_table,SUBSTR(c.LOCATION,18) </code><code>AS</code> <code>db_location,b.TBL_TYPE </code><code>AS</code> <code>type,SUBSTRING_INDEX(c.INPUT_FORMAT, </code><code>'.'</code><code>, -1)</code>

<code>AS</code> <code>IN_FOR </code><code>FROM</code> <code>dbs a,tbls b,sds c </code><code>WHERE</code> <code>a.DB_ID=b.DB_ID </code><code>AND</code> <code>b.SD_ID=c.SD_ID;</code>

<code>select</code> <code>* </code><code>from</code> <code>table_location_type limit 5;</code>

然後通過和我們自己收集的資訊做join就可以擷取相關的資料：

比如檔案數量最多top 20

<code>select</code> <code>a.db_table </code><code>as</code> <code>tb,round(b.</code><code>size</code><code>/(1024*1024*1024),2) </code><code>as</code> <code>size</code><code>,c.</code><code>size</code> <code>as</code> <code>num,round(b.</code><code>size</code><code>/(c.</code><code>size</code><code>*1024*1024),2) </code><code>as</code> <code>avg</code><code>,</code>

<code>a.type,a.in_for </code><code>from</code> <code>table_location_type a,file_size b,file_num c </code><code>where</code> <code>a.db_location=b.location </code><code>and</code> <code>a.db_location=c.location </code><code>and</code> <code>c.dt=</code><code>'20140325'</code>

<code>and</code> <code>b.dt=</code><code>'20140325'</code> <code>and</code> <code>c.</code><code>size</code> <code>> 0 </code><code>and</code> <code>b.</code><code>size</code> <code>> 1000000000 </code><code>order</code> <code>by</code> <code>c.</code><code>size</code><code>+0 </code><code>desc</code> <code>limit 20;</code>

在實際的使用中，我們收集了檔案數最多的表，占用空間最大的表，平均檔案最小的表，并通過報表的形式方式處理，這樣就可以簡單了解到hive中表的一些資訊，另外還會收集一些job的資訊，比如job的map和reduce的數量，使用情況等，對job做詳細的分析和優化。

報表如下：

本文轉自菜菜光 51CTO部落格，原文連結：http://blog.51cto.com/caiguangguang/1385603，如需轉載請自行聯系原作者

hive中表狀态資料的擷取

繼續閱讀

set define off關閉替代變量功能

報錯：'mysql' 不是内部或外部指令，也不是可運作的程式或批處理檔案。

Linxu常用指令技巧彙總

ERROR 1 (HY000): Can't create/write to file '/tmp/#sql_4188_1.MYI' (Errcode: 28)

艱難安裝LDAP,SSL認證

《Linux指令行與Shell腳本程式設計大全第2版.布盧姆》pdf

MySQL的4種隔離級别？出現問題

XX系統實施過程問題總結

無元件上傳圖檔到資料庫中，最完整解決方案

【MySQL資料庫】資料庫索引事務1.索引2.事務

neo4j之cypher使用文檔

NOSQL安全攻擊

mybatis_入門程式Mybatis入門

登入plsql 報錯 the account is locked --使用者被鎖

sqlServer根據經緯查距離

SequoiaDB巨杉資料庫C++驅動概述