Hive 調整inputsplit size來增加MAP數

2017-11-14 23:50:00

線上一個Hive（CDH4.2.0）的清洗Job出錯，檢視日志發現其中一個MAP OOME：

檢視了日志這個HQL是2個表進行Join，splits=2即開了2個MAP進行分别處理，其中一個大表123MB（<dfs.block.size=128MB），500W行左右，應該是資料量超過了MAP的記憶體了，通過對比前一天的日志可以确認：

由于是臨時表，設定了mapred.reduce.tasks=20重跑新生成臨時表，Join清洗成功：

由于MR的inputsplit size=min{minsplitsize,max{maxsplitsize,blocksize}}，是以想是否可以通過設定mapred.max.split.size=32MB來起多個MAP這種方式解決呢，嘗試後發現仍然是2個MAP；以為是BugMAPREDUCE-2046，但是CDH4.2已經merge進來,看了一圈由于sequencefileinputformat是老的mapreduce api接口，修改一下hive.input.format然後通過設定mapred.map.tasks增加果然起了預期的MAP數；

本文轉自MIKE老畢 51CTO部落格，原文連結：http://blog.51cto.com/boylook/1298637，如需轉載請自行聯系原作者

Hive 調整inputsplit size來增加MAP數

繼續閱讀

ASP程式設計中20個非常有用的例子

《Hive權威指南》第八章：HiveQL索引8 HiveQL：索引

龍珠訓練營task04

阿裡雲天池龍珠計劃SQL訓練營打卡

阿裡雲天池龍珠計劃SQL訓練營day1

實驗樓sql進階之成績管理系統的資料操作(window)

HiveQl語句應用執行個體：WordCount具體步驟如下：

Oracle的基本操作

GNU科學函數庫[參考手冊][v0.1 Build 090129 Beta][GNU Scientific Library]

與專家面對面：Android開發入門問與答

SQL優化SQL語句優化的目的

JAVA高效程式設計指南

關于SQL語言

SQL語言基礎：常用的資料查詢語句

neo4j之cypher使用文檔

sqlServer根據經緯查距離