天天看点

Hive 导入 parquet 格式数据

Hive 导入 parquet 数据步骤如下:

查看 parquet 文件的格式

构造建表语句

倒入数据

社区工具

GitHub 地址

查看结构:

java -jar parquet-tools-1.6.0rc3-SNAPSHOT.jar schema -d activity.201711171437.0.parquet |head -n 30

查看内容:

java -jar parquet-tools-1.6.0rc3-SNAPSHOT.jar head -n 2 activity.201711171437.0.parquet

Tips:分区 partitioned by (date string)

Tips:区别是没有 local

先安装 pyarrow 或 fastparquet 库