parquet参考parquet

2023-07-05 06:27:40

参考

大数据开源列式存储引擎Parquet和ORC

新型列式存储格式 Parquet 详解

读写parquet格式文件的几种方式

Parquet file optional field does not exist

parquet

列存

列存使用场景：数据列很多，且每次操作仅针对若干列的情景

parquet数据存储

schema描述存储结构

有group和primitive两种，用以表示嵌套类型

group 复杂类型，基本处于中间节点，并不存储数据，为虚拟节点

primitive 基本类型，int,String之类，处于叶子节点，存储具体数据

字段属性

required 必须出现1次

repeted 可以出现0次或多次

optional 可以出现0次或1次

数据模型（repetition && definition）

repetition level：表示该数值是在那一层开始出现重复的；0表示一个新的记录；required & optional 无重复含义，无需该定义；在写入的时候将其理解为该节点和路径上的哪一个repeated节点是不共享的，读取的时候将其理解为需要在哪一层创建一个新的repeated节点，这样的话每一列最大的repeated level值就等于路径上的repeated节点的个数（不包括根节点）

definition level：表示在此路径上有多少可选的field被定义了；required 必须有数据，无需该字段；

(R,D,value)[R表示repetition level；D表示definition level]

文件格式

行组(row group)；列块(Column Chunk)；页(Page)

parquet与orc对比

parquet能够更好的支持嵌套结构，其最初的设计动机就是存储嵌套式数据，如json,thrift,Protocolbuffer等，将这类数据存储成列式格式

其他方面似乎orc的性能更好

比较方面	Parquet	orc
发展状态	目前都是Apache开源的顶级项目，列式存储引擎
开发语言	Java	java
主导公司	Twitter/Cloudera	Hortonworks
列编码	支持多种编码，字典，RLE，Delta等	支持主流编码，与Parquet类似
ACID	不支持	支持ACID事务
修改操作(update,delete等)	不支持	支持
支持索引(统计信息)	粗粒度索引，bolck/group/chunk级别统计信息	粗粒度索引，file/Stripe/row级别
查询性能	orc稍好
数据压缩能力	orc好一些
支持的查询引擎	Apache Drill/impala	Apache hive

在mapreduce中简单使用parquet

parquet参考parquet

参考

parquet

列存

parquet数据存储

parquet与orc对比

继续阅读

大数据技术原理与应用（最后三天备考了！！！）

Hadoop FSDataInputStream 和FSDataOutputStream 用法

Windows下Cygwin环境的Hadoop安装（3）- 运行hadoop中的wordcount实例遇到的问题和解决方法

MapReduce运行Wordcount时一直卡在INFO mapreduce.Job: Running job，web查看一直处于accepted阶段

ubuntu hadoop2.6.1，terminal下运行wordcount

MapReduce(一)：入门级程序wordcount及其分析

hadoop操作遇到的问题问题一：输出文件已存在

Hadoop之运行wordcount

jdk1.7+Eclipse+Maven3.5+Hadoop2.7.3构建hadoop项目

Eclipse运行WordCount（详细版）相关连接Eclipse运行WordCount

hadoop 用MR实现join操作

Centos7 下 Hadoop 2.6.4 分布式集群环境搭建摘要集群准备安装JDK 安装 Hadoop 2.6.4 部署 slaver1-slaver4 启动 hadoop 集群成功了

MapReduce的几个企业级经典面试案例MapReduce的几个企业级经典面试案例

ubuntu14.04下安装hbse1.0.1.1

User Defined Hadoop DataType

Ambari介绍和架构原理