使用IDEA开发及测试Spark的环境搭建及简单测试

2016-03-05 23:50:00

一、安装JDK(具体安装省略)

二、安装Scala(具体安装省略)

三、安装IDEA

　　1、打开后会看到如下，然后点击OK

　2、点击Next:Default plugins，进入以下页面：

　　3、点击Scala的Install安装(确保联网)，等待完成后，出现

　4、点击Create New Project进入主页面：打开后新建一个名为WordCount的工程(这个应该都知道吧File-->New-->Scala Project)，建立完成后，再点击File-->Project Structure-->Libraries，然后点击+号，找到自己的spark包(spark-assembly-1.0.0-hadoop1.0.4.jar，然后点击OK)(这一步很重要)

　　5、此时所有的包依赖都导入成功，然后新建一个Scala类，即可开发Spark

四、写程序

　　下面给出史上最详细的程序：

　　1、如果想要在本地上搞Spark的话：

使用IDEA开发及测试Spark的环境搭建及简单测试

View Code

　　通过点击右键，选择Run As-->Scala Application，然后出现运行结果：

使用IDEA开发及测试Spark的环境搭建及简单测试

　　2、如果想要在集群上搞Spark的话：

使用IDEA开发及测试Spark的环境搭建及简单测试

　　(1)将你的程序打包到你的linux，运行Spark集群。具体操作为：File-->Project Structure-->Artifacts-->JAR-->From Moudle With Dependencies，注意此时要把和Spark与Scala相关的JAR去掉。

　　(2)然后点击OK即可。

　　注意：问为什么不能直接在IDEA中发到spark集群呢？

　　　　1)、内存和cores的限制，默认值spark的driver会在提交spark的机器上，需要很强大的环境。

　　　　2)、Driver要指挥workers工作，如果spark在生产环境下一定会通过写自动化shell脚本来提交程序的，如果与IDEA不在同一个网络下回出现任务丢失等问题。

　　　　3)、安全性较差。

　　(3)、通过打开spark后，执行

当神已无能为力，那便是魔渡众生

使用IDEA开发及测试Spark的环境搭建及简单测试

继续阅读

Linux 7 中配置Apache服务，及禁止ip访问，删除apache广告页面。

9.spark Core 进阶2--Cashe

Apache配置文件中的deny和allow的使用

Apache 配置默认编码

服务器配置——Apache

Apache静态文件访问配置（书封服务器）

apache httpd 配置

大数据排错SparkSpark集群启动时候，JAVA_HOME is not sethadoop集群，某台服务器jps无任何输出IDEAkafkahadoopspark sqlfile permissionsIDEA本地测试 - OutOfMemoryError: GC overhead limit exceededhdfs负载均衡

Ubuntu16.04安装Apache+MySQL+PHP1. 安装Apache2. 安装MySQL3. 安装PHP4. 安装phpMyAdmin

Apache配置SSLApache配置SSL

Windows下配置Apache的SSL服务

Apache2.4.x 配置文件详解Apache配置需要了解如下：开始讲解：

配置apache支持PHP（win7）

spark/scala关于【资源文件】加载方法概述外部文件加载方案测试资源文件打包入jar包中小结

win10本地scala和spark安装安装scala安装spark

scala (3) Function 和 Method