HIVE参数调优（汇总）

2023-07-22 00:12:12

//设置自动mapjoin 为false

set hive.auto.convert.join=false;

set hive.ignore.mapjoin.hint=false

//关闭严格模式

set hive.exec.dynamic.partition.mode=nonstrict;

set hive.mapred.mode=nonstrict;

//设置压缩格式-gzip

set hive.exec.compress.output=true;

set mapred.output.compress=true;

set mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec;

set io.compression.codecs=org.apache.hadoop.io.compress.GzipCodec;

//设置压缩格式-lzo

set hive.exec.compress.output=true;

set mapred.output.compress=true;

set mapred.output.compression.codec=com.hadoop.compression.lzo.LzoCodec;

set io.compression.codecs=com.hadoop.compression.lzo.LzoCodec;

//数据倾斜

set hive.map.aggr=true; // map端聚合

set hive.optimize.skewjoin=true;

set hive.groupby.skewindata=true;

//排序内存溢出问题

set mapreduce.task.io.sort.mb=10;

set hive.groupby.mapaggr.checkinterval=100000;

// join 内存溢出时设置

set mapred.child.java.opts=-Xmx512m;

//设置任务数

set mapred.reduce.tasks=10;

//元数据：嵌套SQL并行执行优化:

set hive.exec.parallel=true;

set hive.exec.parallel.thread.number=16;

mapreduce.reduce.shuffle.memory.limit.percent：

默认值： 0.25

说明：一个单一的shuffle的最大内存使用限制(可调整为0.1)。

set mapred.max.split.size=1000000;

参考

那些年使用Hive踩过的坑
Hive性能优化
hive参数调优汇总
数据分析利器之hive优化十大原则

HIVE参数调优（汇总）

参考

继续阅读

《Hive权威指南》第八章：HiveQL索引8 HiveQL：索引

Windows下Cygwin环境的Hadoop安装（3）- 运行hadoop中的wordcount实例遇到的问题和解决方法

MapReduce运行Wordcount时一直卡在INFO mapreduce.Job: Running job，web查看一直处于accepted阶段

ubuntu hadoop2.6.1，terminal下运行wordcount

MapReduce(一)：入门级程序wordcount及其分析

HiveQl语句应用实例：WordCount具体步骤如下：

hadoop操作遇到的问题问题一：输出文件已存在

Hadoop之运行wordcount

jdk1.7+Eclipse+Maven3.5+Hadoop2.7.3构建hadoop项目

Eclipse运行WordCount（详细版）相关连接Eclipse运行WordCount

hadoop 用MR实现join操作

Centos7 下 Hadoop 2.6.4 分布式集群环境搭建摘要集群准备安装JDK 安装 Hadoop 2.6.4 部署 slaver1-slaver4 启动 hadoop 集群成功了

MapReduce的几个企业级经典面试案例MapReduce的几个企业级经典面试案例

ubuntu14.04下安装hbse1.0.1.1

User Defined Hadoop DataType

Ambari介绍和架构原理