Hive 导入 parquet 数据步骤如下:
查看 parquet 文件的格式
构造建表语句
倒入数据
社区工具
GitHub 地址
查看结构:
java -jar parquet-tools-1.6.0rc3-SNAPSHOT.jar schema -d activity.201711171437.0.parquet |head -n 30
查看内容:
java -jar parquet-tools-1.6.0rc3-SNAPSHOT.jar head -n 2 activity.201711171437.0.parquet
Tips:分区 partitioned by (date string)
Tips:区别是没有 local
先安装 pyarrow 或 fastparquet 库