Scala语言在Idea Maven项目编写wordcount

2022-07-04 16:51:39

准备数据

test.txt

111
sss
ddd
as
zjj
assssd
zjj
aaa
sssds
aaa

创建Maven项目

依赖xml

<dependencies>
        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-core_2.11</artifactId>
            <version>2.1.1</version>
        </dependency>
    </dependencies>
    <build>
        <plugins>
            <!-- 打包插件, 否则 scala 类不会编译并打包进去 -->
            <plugin>
                <groupId>net.alchim31.maven</groupId>
                <artifactId>scala-maven-plugin</artifactId>
                <version>3.4.6</version>
                <executions>
                    <execution>
                        <goals>
                            <goal>compile</goal>
                            <goal>testCompile</goal>
                        </goals>
                    </execution>
                </executions>
            </plugin>
        </plugins>
    </build>

编写wordcount

import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}
object WordCount {

  def main(args: Array[String]): Unit = {
    // 指定要分析的文件
    val  filePath ="D:\\Downloads\\test.txt"

    // 1. 创建一个SparkContext  打包的时候, 把master的设置去掉, 在提交的时候使用 --maser 来设置master
    //这样运行只能是local模式,
    val conf: SparkConf = new SparkConf().setMaster("local[2]") .setAppName("WordCount")
    val sc: SparkContext = new SparkContext(conf)

    // 2. 从数据源得到一个RDD
    val lineRDD: RDD[String] = sc.textFile(filePath)
    // 3. 对RDD做各种转换
    val resultRDD: RDD[(String, Int)] = lineRDD
      .flatMap(_.split("\\W"))
      .map((_, 1))
      .reduceByKey(_ + _)

    // 4. 执行一个行动算子   (collect: 把各个节点计算后的数据, 拉取到驱动端)
    val wordCountArr = resultRDD.collect()
    wordCountArr.foreach(println)
    // 5. 关闭SparkContext
    sc.stop()
  }


}

运行

(ddd,1)
(zjj,2)
(as,1)
(sssds,1)
(assssd,1)
(sss,1)
(111,1)
(aaa,2)

Scala语言在Idea Maven项目编写wordcount

准备数据

创建Maven项目

依赖xml

运行

码云代码地址

继续阅读

Linux 7 中配置Apache服务，及禁止ip访问，删除apache广告页面。

9.spark Core 进阶2--Cashe

Apache配置文件中的deny和allow的使用

Apache 配置默认编码

服务器配置——Apache

Apache静态文件访问配置（书封服务器）

apache httpd 配置

大数据排错SparkSpark集群启动时候，JAVA_HOME is not sethadoop集群，某台服务器jps无任何输出IDEAkafkahadoopspark sqlfile permissionsIDEA本地测试 - OutOfMemoryError: GC overhead limit exceededhdfs负载均衡

Ubuntu16.04安装Apache+MySQL+PHP1. 安装Apache2. 安装MySQL3. 安装PHP4. 安装phpMyAdmin

Apache配置SSLApache配置SSL

Windows下配置Apache的SSL服务

Apache2.4.x 配置文件详解Apache配置需要了解如下：开始讲解：

配置apache支持PHP（win7）

spark/scala关于【资源文件】加载方法概述外部文件加载方案测试资源文件打包入jar包中小结

win10本地scala和spark安装安装scala安装spark

scala (3) Function 和 Method