Spark Core读取ES的分区问题分析

写这篇文章的原因是前两天星球球友去面试，面试管问了一下，Spark 分析ES的数据，生成的RDD分区数跟什么有关系呢？

稍微猜测一下就能想到跟分片数有关，但是具体是什么关系呢？

可想的具体关系可能是以下两种：

1).就像KafkaRDD的分区与kafka topic分区数的关系一样，一对一。

2).ES支持游标查询，那么是不是也可以对比较大ES 索引的分片进行拆分成多个RDD分区呢？

那么下面浪尖带着大家翻一下源码看看具体情况。

1.Spark Core读取ES

ES官网直接提供的有elasticsearch-hadoop 插件，对于ES 7.x，hadoop和Spark版本支持如下：

hadoop2Version = 2.7.1

hadoop22Version = 2.2.0

spark13Version = 1.6.2

spark20Version = 2.3.0

浪尖这了采用的ES版本是7.1.1，测试用的Spark版本是2.3.1，没有问题。整合es和spark，导入相关依赖有两种方式：

a，导入整个elasticsearch-hadoop包

<groupId>org.elasticsearch</groupId>
  <artifactId>elasticsearch-hadoop</artifactId>
  <version>7.1.1</version>
</dependency>

b，只导入spark模块的包

<groupId>org.elasticsearch</groupId>
  <artifactId>elasticsearch-spark-20_2.11</artifactId>
  <version>7.1.1</version>
</dependency>

浪尖这里为了测试方便，只是在本机起了一个单节点的ES实例，简单的测试代码如下：

import org.apache.spark.{SparkConf, SparkContext}

import org.elasticsearch.hadoop.cfg.ConfigurationOptions

object es2sparkrdd {

def main(args: Array[String]): Unit = {

val conf = new SparkConf().setMaster("local[*]").setAppName(this.getClass.getCanonicalName)

conf.set(ConfigurationOptions.ES_NODES, "127.0.0.1")
conf.set(ConfigurationOptions.ES_PORT, "9200")
conf.set(ConfigurationOptions.ES_NODES_WAN_ONLY, "true")
conf.set(ConfigurationOptions.ES_INDEX_AUTO_CREATE, "true")
conf.set(ConfigurationOptions.ES_NODES_DISCOVERY, "false")

// conf.set(ConfigurationOptions.ES_NET_HTTP_AUTH_USER, esUser)

// conf.set(ConfigurationOptions.ES_NET_HTTP_AUTH_PASS, esPwd)

conf.set("es.write.rest.error.handlers", "ignoreConflict")
conf.set("es.write.rest.error.handler.ignoreConflict", "com.jointsky.bigdata.handler.IgnoreConflictsHandler")

val sc = new SparkContext(conf)
import org.elasticsearch.spark._

sc.esRDD("posts").foreach(each=>{
  each._2.keys.foreach(println)
})
sc.esJsonRDD("posts").foreach(each=>{
  println(each._2)
})

sc.stop()

}

可以看到Spark Core读取RDD主要有两种形式的API：

a，esRDD。这种返回的是一个tuple2的类型的RDD，第一个元素是id，第二个是一个map，包含ES的document元素。

RDD[(String, Map[String, AnyRef])]

b，esJsonRDD。这种返回的也是一个tuple2类型的RDD，第一个元素依然是id，第二个是json字符串。

RDD[(String, String)]

虽然是两种类型的RDD，但是RDD都是ScalaEsRDD类型。

要分析Spark Core读取ES的并行度，只需要分析ScalaEsRDD的getPartitions函数即可。

2.源码分析

首先导入源码

https://github.com/elastic/elasticsearch-hadoop这个是gradle工程

，可以直接导入idea，然后切换到7.x版本即可。

废话少说直接找到ScalaEsRDD，发现gePartitions是在

游戏转让

父类实现的，方法内容如下：

override def getPartitions: Array[Partition] = {

esPartitions.zipWithIndex.map { case(esPartition, idx) =>
  new EsPartition(id, idx, esPartition)
}.toArray

esPartitions是一个lazy型的变量：

@transient private[spark] lazy val esPartitions = {

RestService.findPartitions(esCfg, logger)

这种声明原因是什么呢？

lazy+transient的原因大家可以考虑一下。

RestService.findPartitions方法也是仅是创建客户端获取分片等信息，然后调用，分两种情况调用两个方法。

final List partitions;

// 5.x及以后版本同时没有配置es.input.max.docs.per.partition

if (clusterInfo.getMajorVersion().onOrAfter(EsMajorVersion.V_5_X) && settings.getMaxDocsPerPartition() != null) {

partitions = findSlicePartitions(client.getRestClient(), settings, mapping, nodesMap, shards, log);

} else {

partitions = findShardPartitions(settings, mapping, nodesMap, shards, log);

}

a).findSlicePartitions

这个方法其实就是在5.x及以后的ES版本，同时配置了

es.input.max.docs.per.partition

以后，才会执行，实际上就是将ES的分片按照指定大小进行拆分，必然要先进行分片大小统计，然后计算出拆分的分区数，最后生成分区信息。具体代码如下：

long numDocs;

if (readResource.isTyped()) {

numDocs = client.count(index, readResource.type(), Integer.toString(shardId), query);

numDocs = client.countIndexShard(index, Integer.toString(shardId), query);

int numPartitions = (int) Math.max(1, numDocs / maxDocsPerPartition);

for (int i = 0; i < numPartitions; i++) {

PartitionDefinition.Slice slice = new PartitionDefinition.Slice(i, numPartitions);
partitions.add(new PartitionDefinition(settings, resolvedMapping, index, shardId, slice, locations));

实际上分片就是用游标的方式，对_doc进行排序，然后按照分片计算得到的分区偏移进行数据的读取，组装过程是SearchRequestBuilder.assemble方法来实现的。

这个其实个人觉得会浪费一定的性能，假如真的要ES结合Spark的话，建议合理设置分片数。

b).findShardPartitions方法

这个方法没啥疑问了就是一个RDD分区对应于ES index的一个分片。

PartitionDefinition partition = new PartitionDefinition(settings, resolvedMapping, index, shardId,

locationList.toArray(new String[0]));

partitions.add(partition);

3.总结

以上就是Spark Core读取ES数据的时候分片和RDD分区的对应关系分析，默认情况下是一个es 索引分片对应Spark RDD的一个分区。假如分片数过大，且ES版本在5.x及以上，可以配置参数

进行拆分。

Spark Core读取ES的分区问题分析

继续阅读

Ajax——模板引擎

使用underscore的template自定义模板

underscore模板功能的使用和学习

hadoop 用MR实现join操作

Centos7 下 Hadoop 2.6.4 分布式集群环境搭建摘要集群准备安装JDK 安装 Hadoop 2.6.4 部署 slaver1-slaver4 启动 hadoop 集群成功了

MapReduce的几个企业级经典面试案例MapReduce的几个企业级经典面试案例

[HTML5]自定义属性 data-* 和 jQuery.data 详解

七牛云-C#SDK-上传-前期准备

大数据排错SparkSpark集群启动时候，JAVA_HOME is not sethadoop集群，某台服务器jps无任何输出IDEAkafkahadoopspark sqlfile permissionsIDEA本地测试 - OutOfMemoryError: GC overhead limit exceededhdfs负载均衡

ubuntu14.04下安装hbse1.0.1.1

User Defined Hadoop DataType

Ambari介绍和架构原理

spark/scala关于【资源文件】加载方法概述外部文件加载方案测试资源文件打包入jar包中小结

vue-cli简介（中文翻译）

Ajax发送和获取json数据到Spring mvc 1.spring mvc后端2.web前段

JSONObject包导入异常 java.lang.NoClassDefFoundErrorweb项目的导入包的问题