基于hadoop2.7集群的Spark2.0，Sqoop1.4.6，Mahout0.12.2完全分布式安装一：安装 Scala 2.11.X二：安装 Spark 2.0三：安装 Sqoop 1.4.6四：安装 Mahout 0.12.2五：额外补充

2016-07-27 23:50:00

写在前边的话

基本环境：

CentOS 6.5，Hadoop 2.7，Java 1.7

Hive 2.0.0，Zookeeper 3.4.8， Hbase 1.2.2

预安装

Scala 2.11

Spark 2.0

Sqoop 1.4.6

Mahout 0.12.2

sudo tar -zxvf /home/master/下载/scala-2.11.8.tar.gz -C /opt/

sudo mv scala-2.11.8/ /opt/scala

sudo vim /etc/profile 加入如下代码：

source /etc/profile

执行 sudo scp -r /opt/scala/ slave1:/opt/scala

sudo scp -r /opt/scala/ slave2:/opt/scala

分别在各个节点上修改环境变量即可

终端直接输入scala即可

[master@master1 opt]$ sudo tar -zxvf /home/master/下载/spark-2.0.0-bin-hadoop2.7.tgz -C .

[master@master1 opt]$ sudo mv spark-2.0.0-bin-hadoop2.7/ spark

sudo vim /etc/profile ，加入

复制：sudo cp spark-env.sh.template spark-env.sh

加入以下：

master1

slave1

slave2

sudo scp -r /opt/spark/ slave1:/opt/spark

sudo scp -r /opt/spark/ slave2:/opt/spark

并修改各个节点的环境变量

启动master： sbin/start-master.sh

启动salve： sbin/start-slaves.sh

如遇到权限不足问题，直接给每台机器上的spark目录赋予 777 的权限即可

http://192.168.48.130:8080/

基于hadoop2.7集群的Spark2.0，Sqoop1.4.6，Mahout0.12.2完全分布式安装一：安装 Scala 2.11.X二：安装 Spark 2.0三：安装 Sqoop 1.4.6四：安装 Mahout 0.12.2五：额外补充

bin/spark-shell

sudo vim /etc/profile

sudo cp /home/master/下载/mysql-connector-java-5.1.39-bin.jar /opt/sqoop/lib/

此时如果没有启用hbase,zookeeper等组件，将相应的信息注释，如果启用了，就pass，直接进入下一步

注意路径问题

sudo vim /etc/profile ，加入以下内容：

保存生效：source /etc/profile

进入mahout安装目录，执行：bin/mahout

1：出现 sudo: command not found时

执行 export PATH=$PATH:/bin:/usr/bin:/usr/local/bin 即可

2：这里我们发现除了spark的分布式安装以外要把安装包拷贝到各个节点之外，sqoop和mahout并不需要，只需要在master主机上部署即可，我的理解是sqoop只是进行数据传输的，数据可以是HDFS上的，也可以是Hive，或者Hbase上的，而本身他们已经是分布式的了，所以这里自然不需要将其拷贝到各个节点，而mahout也一样吧，只要运行在分布式的平台上即可，其所依赖的数据也是在hdfs或者hive上，故也不需要将其拷贝到各个节点

3：那么问题来了，我们是否可以将sqoop或者mahout部署到slave节点上呢？答案是肯定的吧，因为每台机器之间是可以互相通过ssh访问的，sqoop使用时可以直接加上对应的IP地址即可，而mahout就可以直接使用了

基于hadoop2.7集群的Spark2.0，Sqoop1.4.6，Mahout0.12.2完全分布式安装一：安装 Scala 2.11.X二：安装 Spark 2.0三：安装 Sqoop 1.4.6四：安装 Mahout 0.12.2五：额外补充

继续阅读

更改LYNC SIP地址

hadoop 用MR实现join操作

Centos7 下 Hadoop 2.6.4 分布式集群环境搭建摘要集群准备安装JDK 安装 Hadoop 2.6.4 部署 slaver1-slaver4 启动 hadoop 集群成功了

终端环境之tmux

lvm创建、扩容

HBuilder开发App Step1——环境搭建，HelloMUI 以及真机调试

MapReduce的几个企业级经典面试案例MapReduce的几个企业级经典面试案例

9.spark Core 进阶2--Cashe

大数据排错SparkSpark集群启动时候，JAVA_HOME is not sethadoop集群，某台服务器jps无任何输出IDEAkafkahadoopspark sqlfile permissionsIDEA本地测试 - OutOfMemoryError: GC overhead limit exceededhdfs负载均衡

ubuntu14.04下安装hbse1.0.1.1

User Defined Hadoop DataType

27 Best Free Eclipse Plug-ins for Java Developer to be ProductiveCode Quality PluginsText Editor PluginsDependency ManagementVersion Control Integration PluginsFramework Development Continuous Integration Related PluginsOther Utility Plugins

Ambari介绍和架构原理

spark/scala关于【资源文件】加载方法概述外部文件加载方案测试资源文件打包入jar包中小结

win10本地scala和spark安装安装scala安装spark

scala (3) Function 和 Method