天天看点

使用IDEA开发及测试Spark的环境搭建及简单测试

一、安装JDK(具体安装省略)

二、安装Scala(具体安装省略)

三、安装IDEA

  1、打开后会看到如下,然后点击OK

 2、点击Next:Default plugins,进入以下页面:

  3、点击Scala的Install安装(确保联网),等待完成后,出现

  4、点击Create New Project进入主页面:打开后新建一个名为WordCount的工程(这个应该都知道吧File-->New-->Scala Project),建立完成后,再点击File-->Project Structure-->Libraries,然后点击+号,找到自己的spark包(spark-assembly-1.0.0-hadoop1.0.4.jar,然后点击OK)(这一步很重要)

  5、此时所有的包依赖都导入成功,然后新建一个Scala类,即可开发Spark

四、写程序

  下面给出史上最详细的程序:

  1、如果想要在本地上搞Spark的话:

使用IDEA开发及测试Spark的环境搭建及简单测试
使用IDEA开发及测试Spark的环境搭建及简单测试

View Code

  通过点击右键,选择Run As-->Scala Application,然后出现运行结果:

使用IDEA开发及测试Spark的环境搭建及简单测试
使用IDEA开发及测试Spark的环境搭建及简单测试

  2、如果想要在集群上搞Spark的话:

使用IDEA开发及测试Spark的环境搭建及简单测试
使用IDEA开发及测试Spark的环境搭建及简单测试

  (1)将你的程序打包到你的linux,运行Spark集群。具体操作为:File-->Project Structure-->Artifacts-->JAR-->From Moudle With Dependencies,注意此时要把和Spark与Scala相关的JAR去掉。

  (2)然后点击OK即可。

  注意:问为什么不能直接在IDEA中发到spark集群呢?

    1)、内存和cores的限制,默认值spark的driver会在提交spark的机器上,需要很强大的环境。

    2)、Driver要指挥workers工作,如果spark在生产环境下一定会通过写自动化shell脚本来提交程序的,如果与IDEA不在同一个网络下回出现任务丢失等问题。

    3)、安全性较差。

  (3)、通过打开spark后,执行

当神已无能为力,那便是魔渡众生

继续阅读