spark是跑在hadoop上(依赖yarn和hdfs)的内存计算引擎,内置了多种丰富组件如spark sql、spark stream等,是大数据分析挖掘的一种技术趋势。本文为学习spark技术的第一篇日志,主要记录了hadoop环境的搭建、安装与测试。
操作系统:centos 7 ;jdk:1.7;hadoop版本:hadoop-2.6.0.tar.gz(使用编译好的,而非源码)
此类教程网上较多,不再累述。仅仅提一下需要在环境变量中设置java_home。
在此文件末尾追加export java_home=/usr。"/usr"根据实际路径修改。最后执行如下命令使设置立即生效。
将hadoop解压到/usr/local/目录下。
hadoop 默认模式为非分布式模式,无需进行其他配置即可运行。非分布式即单 java 进程,方便进行调试。现在我们可以执行例子来感受下 hadoop 的运行。hadoop 附带了丰富的例子包括 wordcount、terasort、join、grep 等。
在此我们选择运行 grep 例子,我们将 input 文件夹中的所有文件作为输入,筛选当中符合正则表达式 dfs[a-z.]+ 的单词并统计出现的次数,最后输出结果到 output 文件夹中
hadoop 可以在单节点上以伪分布式的方式运行,hadoop 进程以分离的 java 进程来运行,节点既作为 namenode 也作为 datanode,同时,读取的是 hdfs 中的文件。在设置 hadoop 伪分布式配置前,我们还需要设置 hadoop 环境变量,执行如下命令在 /etc/bashrc 中设置,保存后,不要忘记执行source命令使配置生效。
这些变量在启动 hadoop 进程时需要用到,不设置的话可能会报错(这些变量也可以通过修改 ./etc/hadoop/hadoop-env.sh 实现)。hadoop 的配置文件位于 /usr/local/hadoop-2.6.0/etc/hadoop/ 中,伪分布式需要修改2个配置文件 core-site.xml 和 hdfs-site.xml 。hadoop的配置文件是 xml 格式,每个配置以声明 property 的 name 和 value
的方式来实现。
修改配置文件 core-site.xml ,如下:
修改配置文件 hdfs-site.xml ,如下:
配置完成后,执行 namenode 的格式化。成功的话,会看到 “successfully formatted” 和 “exitting with status 0” 的提示,若为 “exitting with status 1” 则是出错。
接着开启 nanenode 和 datanode 守护进程。若出现如下 ssh 的提示 “are you sure you want to continue connecting”,输入 yes 即可。
启动完成后,可以通过命令 jps 来判断是否成功启动,若成功启动则会列出如下进程: “namenode”、”datanode”和secondarynamenode(如果 secondarynamenode 没有启动,请运行 sbin/stop-dfs.sh 关闭进程,然后再次尝试启动尝试)。如果没有 namenode 或 datanode ,那就是配置不成功,请仔细检查之前步骤,或通过查看启动日志排查原因。
hdfs 中的文件。
上面的单机模式,grep 例子读取的是本地数据,伪分布式读取的则是 hdfs 上的数据。
运行 hadoop 程序时,为了防止覆盖结果,程序指定的输出目录(如 output)不能存在,否则会提示错误,因此运行前需要先删除输出目录。
(伪分布式不启动 yarn 也可以,一般不会影响程序执行)有的读者可能会疑惑,怎么启动 hadoop 后,见不到书上所说的 jobtracker 和 tasktracker,这是因为新版的 hadoop 使用了新的 mapreduce 框架(mapreduce v2,也称为 yarn,yet another resource negotiator)。yarn 是从 mapreduce 中分离出来的,负责资源管理与任务调度。yarn 运行于 mapreduce
之上,提供了高可用性、高扩展性,yarn 的更多介绍在此不展开,有兴趣的可查阅相关资料。上述通过 ./sbin/start-dfs.sh 启动 hadoop,仅仅是启动了 mapreduce 环境,我们可以启动 yarn ,让 yarn 来负责资源管理与任务调度。
首先修改配置文件 mapred-site.xml,这边需要先进行重命名,并修改内容。