天天看点

Spark实践-日志查询

环境

win 7

jdk 1.7.0_79 (Oracle Corporation)

scala version 2.10.5

spark 1.6.1

详细配置:

Spark Properties

任务

完成对如下日志的查询:

思路:

1.利用正则表达式提取出日志特征,然后map在分片后的RDD上。

2.执行reducebykey,merge相同的Stats

Spark实践-日志查询

分析下执行过程:

加载SLF4J

初始化sparkcontext上下文

Spark实践-日志查询

SecurityManager

‘sparkDriver’ on port 36010

Remoting: Remoting started; listening on addresses :[akka.tcp://[email protected]:36023]

MapOutputTracker

BlockManagerMaster

DiskBlockManager: Created local directory at C:\Users\hp\AppData\Local\Temp\blockmgr-84667505-0018-439b-9627-

OutputCommitCoordinator

Executor

org.apache.spark.network.netty.NettyBlockTransferService

这几个是几个主要过程。

开始执行job

Spark实践-日志查询
Spark实践-日志查询
Spark实践-日志查询
Spark实践-日志查询

结束

总结

java的代码实现spark API虽然代码冗余很多,但是很清楚显示了spark的执行过程,先比于scala的代码,较为清楚,而且java的代码和其他的项目结合效果可能好些。

上一篇: Spark-SparkSql
下一篇: Spark-RDD API