利用Spark Streaming实现分布式采集系统

前两天我刚在自己的一篇文章中鼓吹数据天生就是流式的,并且指出：

<b>批量计算已经在慢慢退化，未来必然是属于流式计算的，数据的流动必定是由数据自己驱动流转的。</b>

而spark streaming 在上层概念上，完美融合了批量计算和流式计算，让他们你中有我，我中有你，这种设计使得spark streaming 作为流式计算的一个载体，同时也能作为其他一些需要分布式架构的问题提供解决方案。

天然就是分布式的，不用再为实现分布式协调而蛋疼

基于task的任务执行机制，可随意控制task数量

无需关注机器，是面向资源的，使得部署变得异常简单，申明资源，提交，over

集成完善的输入输出，包括hdfs/kafka/elasticsearch/hbase/mysql/redis 等等，这些都无需自己去搞

成熟简单的算子让你对数据的处理变得异常简单

现在以标题中的采集系统为例，整个事情你只要实现采集逻辑，至于具体元数据读取，结果存储到哪都可能只要个简单配置或者利用现成的组件，最后部署也只要简单申明下资源就可以在一个可以弹性扩展的集群上。

关于这块的理念，可参考

<a href="https://yq.aliyun.com/articles/60235?spm=5176.8091938.0.0.9tgxbg">看不到服务器的年代，一个新的时代</a>

<a href="https://yq.aliyun.com/articles/60239?spm=5176.8091938.0.0.9tgxbg">transformer架构解析</a>

<a href="https://yq.aliyun.com/articles/60243?spm=5176.8091938.0.0.9tgxbg">spark streaming 妙用之实现工作流调度器</a>

目前这个采集系统主要是为了监控使用。但凡一个公司，或者部门内部会有大量的开源系统，每个开源组件都会提供大致三类输出：

标准的metrics 输出，方便你集成到gangila等监控系统上

web ui,比如spark,storm,hbase 都提供了自己的web界面等

rest 接口，主要是 json,xml,字符串

但是对于监控来说，前面两个直观易用，但是也都有比较大的问题：

metrics 直接输出到监控系统，就意味着没办法定制，如果我希望把多个指标放在一块，这个可能就很难做到。

web ui 则需要人去看了

相反，rest 接口最为灵活，但是需要自己做写逻辑，比如获取数据，处理，然后做自己的呈现。问题来了，如果我现在有几千个rest接口的数据要获取，并且需要一个很方便的手段抽取里面要的值(或者指标)。这便涉及到了两个问题：

收集的接口可能非常多，如何让收集程序是可很横向扩展的？

接口返回的数据形态各异，如何提供一个方便一致的模型，让用户简单通过一个配置就可以抽取出里面的内容？

[email protected]

采集元数据源，目前存储在es里

采集系统会定时到es里获取元数据，并且执行特定的收集逻辑

通过采集系统的一定的算子，将数据格式化，接入kafka

通过标准(已经存在的)etl系统完成数据的处理，供后续流程进一步处理

回到上面的一个问题，

<b>接口返回的数据形态各异，如何提供一个方便一致的模型，让用户简单通过一个配置就可以抽取出里面的内容</b>

rest 接口返回的数据，无非四种：

html

json

xml

text

对于1,我们先不探讨。对于json,xml 我们可以采用 xpath，对于text我们可以采用标准的正则或者etl来进行抽取。

我们在定义一个需要采集的url时，需要同时配置需要采集的指标以及对应的指标的xpath路径或者正则。当然也可以交给后端的etl完成该逻辑。不过我们既然已经基于spark streaming做采集系统，自然也可以利用其强大的数据处理功能完成必要的格式化动作。所以我们建议在采集系统直接完成。

数据源的一个可能的数据结构：

采集系统通过我们封装的一个 dinputstream,然后根据batch（调度周期），获取这些数据，之后交给特定的执行逻辑去执行。采用streamingpro,会是这样：

通过上面的配置文件，可以很好看到处理流程。

输入采集源

采集结果

根据xpath 抽取指标

输出结果

元数据管理系统是必要的，他可以方便你添加新的url监控项。通过streamingpro,你可以在spark streaming 的driver中添加元数据管理页面，实现对元数据的操作逻辑。我们未来会为如何通过streamingpro 给spark streaming 添加自定义rest 接口/web页面提供更好的教程。

上面其实已经是试下了一个采集系统的雏形，得益于spark streaming天然的分布式，以及灵活的算子，我们的系统是足够灵活，并且可横向扩展。

然而你会发现，

如果我需要每个接口有不同的采集周期该如何？

如果我要实现更好的容错性如何？

如何实现更好的动态扩容？

第一个问题很好解决，我们在元数据里定义采集周期，而spark streaming的调度周期则设置为最小粒度。

第二个问题容错性属于业务层面的东西，但是如果有task失败，spark streaming也会把你尝试重新调度和重试。我们建议由自己来完成。

第三个，只要开启了 dynamic resource allocation,则能够根据情况，实现资源的伸缩利用。

文／祝威廉（简书作者）

原文链接：http://www.jianshu.com/p/694fda15b304

著作权归作者所有，转载请联系作者获得授权，并标注“简书作者”。

利用Spark Streaming实现分布式采集系统

继续阅读

pyspark调用spark以及执行带in语句参数的hql示例

用写sql的思路写 pyspark

pyspark学习(一)—pyspark的安装与基础语法一 Pysaprk的安装二：pyspark的简单语法END

【Spark Mllib】K-均值聚类——电影类型K-均值聚类数据特征提取

一篇文章让你精通Java JSP规范

世界因大数据而改变

Spark的RDD转换算子-双value型Spark的RDD转换算子-双value型

SparkSQL项目练习1 准备数据2 需求：各区域热门商品Top3

延云行业搜索数据库在大数据生态中位置和重要性大数据的挑战大数据技术的现状延云行业搜索数据库

Spark在windows环境里跑时报错找不到org.apache.hadoop.fs.FSDataInputStream

Spark流式分析系统实现流式实时日志分析系统

Scala和Java二种方式实战Spark Streaming开发

Spark基础:Spark简介及特点,运行模式,安装Spark,Driver与Executor,Local模式,Standalone模式,Yarn模式,Mesos模式,WordCount案例,HA配置第1章 Spark概述第2章 Spark运行模式第3章案例实操

Spark实现wordcount

大数据排错SparkSpark集群启动时候，JAVA_HOME is not sethadoop集群，某台服务器jps无任何输出IDEAkafkahadoopspark sqlfile permissionsIDEA本地测试 - OutOfMemoryError: GC overhead limit exceededhdfs负载均衡

spark/scala关于【资源文件】加载方法概述外部文件加载方案测试资源文件打包入jar包中小结