一、安装JDK(具体安装省略)
二、安装Scala(具体安装省略)
三、安装IDEA
1、打开后会看到如下,然后点击OK
2、点击Next:Default plugins,进入以下页面:
3、点击Scala的Install安装(确保联网),等待完成后,出现
4、点击Create New Project进入主页面:打开后新建一个名为WordCount的工程(这个应该都知道吧File-->New-->Scala Project),建立完成后,再点击File-->Project Structure-->Libraries,然后点击+号,找到自己的spark包(spark-assembly-1.0.0-hadoop1.0.4.jar,然后点击OK)(这一步很重要)
5、此时所有的包依赖都导入成功,然后新建一个Scala类,即可开发Spark
四、写程序
下面给出史上最详细的程序:
1、如果想要在本地上搞Spark的话:
View Code
通过点击右键,选择Run As-->Scala Application,然后出现运行结果:
2、如果想要在集群上搞Spark的话:
(1)将你的程序打包到你的linux,运行Spark集群。具体操作为:File-->Project Structure-->Artifacts-->JAR-->From Moudle With Dependencies,注意此时要把和Spark与Scala相关的JAR去掉。
(2)然后点击OK即可。
注意:问为什么不能直接在IDEA中发到spark集群呢?
1)、内存和cores的限制,默认值spark的driver会在提交spark的机器上,需要很强大的环境。
2)、Driver要指挥workers工作,如果spark在生产环境下一定会通过写自动化shell脚本来提交程序的,如果与IDEA不在同一个网络下回出现任务丢失等问题。
3)、安全性较差。
(3)、通过打开spark后,执行
当神已无能为力,那便是魔渡众生