hive中表状态数据的获取

在做容量规划的时候，我们需要关注hive中表的占用空间大小，文件数量，平均文件大小，已及存储格式，虽然在hive中也有statistcs的功能，但是值并准确（相比mysql的show table status相差很多）

我们可以通过一些简单地方法去拿到这个值，比如通过hadoop fs -du 来获取表占用的空间大小，通过hadoop fs -count获取表的文件数量,然后定期取值并load到数据库中。

在元数据库中，通过创建view来获取数据库，hdfs路径，表类型，存储格式等信息

<code>CREATE</code> <code>OR</code> <code>REPLACE</code> <code>VIEW</code> <code>table_location_type </code><code>AS</code> <code>SELECT</code> <code>CONCAT_WS(</code><code>'.'</code><code>,a.</code><code>NAME</code><code>,b.TBL_NAME) </code><code>AS</code> <code>db_table,SUBSTR(c.LOCATION,18) </code><code>AS</code> <code>db_location,b.TBL_TYPE </code><code>AS</code> <code>type,SUBSTRING_INDEX(c.INPUT_FORMAT, </code><code>'.'</code><code>, -1)</code>

<code>AS</code> <code>IN_FOR </code><code>FROM</code> <code>dbs a,tbls b,sds c </code><code>WHERE</code> <code>a.DB_ID=b.DB_ID </code><code>AND</code> <code>b.SD_ID=c.SD_ID;</code>

<code>select</code> <code>* </code><code>from</code> <code>table_location_type limit 5;</code>

然后通过和我们自己收集的信息做join就可以获取相关的数据：

比如文件数量最多top 20

<code>select</code> <code>a.db_table </code><code>as</code> <code>tb,round(b.</code><code>size</code><code>/(1024*1024*1024),2) </code><code>as</code> <code>size</code><code>,c.</code><code>size</code> <code>as</code> <code>num,round(b.</code><code>size</code><code>/(c.</code><code>size</code><code>*1024*1024),2) </code><code>as</code> <code>avg</code><code>,</code>

<code>a.type,a.in_for </code><code>from</code> <code>table_location_type a,file_size b,file_num c </code><code>where</code> <code>a.db_location=b.location </code><code>and</code> <code>a.db_location=c.location </code><code>and</code> <code>c.dt=</code><code>'20140325'</code>

<code>and</code> <code>b.dt=</code><code>'20140325'</code> <code>and</code> <code>c.</code><code>size</code> <code>> 0 </code><code>and</code> <code>b.</code><code>size</code> <code>> 1000000000 </code><code>order</code> <code>by</code> <code>c.</code><code>size</code><code>+0 </code><code>desc</code> <code>limit 20;</code>

在实际的使用中，我们收集了文件数最多的表，占用空间最大的表，平均文件最小的表，并通过报表的形式方式处理，这样就可以简单了解到hive中表的一些信息，另外还会收集一些job的信息，比如job的map和reduce的数量，使用情况等，对job做详细的分析和优化。

报表如下：

本文转自菜菜光 51CTO博客，原文链接：http://blog.51cto.com/caiguangguang/1385603，如需转载请自行联系原作者

hive中表状态数据的获取

继续阅读

set define off关闭替代变量功能

报错：'mysql' 不是内部或外部命令，也不是可运行的程序或批处理文件。

Linxu常用命令技巧汇总

ERROR 1 (HY000): Can't create/write to file '/tmp/#sql_4188_1.MYI' (Errcode: 28)

艰难安装LDAP,SSL认证

《Linux命令行与Shell脚本编程大全第2版.布卢姆》pdf

MySQL的4种隔离级别？出现问题

XX系统实施过程问题总结

无组件上传图片到数据库中，最完整解决方案

【MySQL数据库】数据库索引事务1.索引2.事务

neo4j之cypher使用文档

NOSQL安全攻击

mybatis_入门程序Mybatis入门

登录plsql 报错 the account is locked --用户被锁

sqlServer根据经纬查距离

SequoiaDB巨杉数据库C++驱动概述