天天看點

Ubuntu16.04安裝Hadoop2.6+Spark1.6+開發執行個體1.配置環境變量2.安裝Hadoop。在單機情景下,可以單例也可以僞分布式安裝。本次詳細介紹了僞分布式安裝。2.0.Hadoop單機模式2.1.僞分布式模式2.7.關閉YARN/dfs3.安裝spark

預設已經正确安裝了jdk,并設定了java_home(安裝jdk教程較多,不再贅述)

ssh免密匙登入

sudo passwd //回車輸入新的root賬戶密碼兩次

su //以root登入 執行設計opt的檔案

在本使用者(root使用者和普通使用者)下

重新啟動terminal/終端

vim /etc/profile.d/spark.sh

vim /etc/profile.d/hadoopsnc.sh (hadoop single node cluster)

Ubuntu16.04安裝Hadoop2.6+Spark1.6+開發執行個體1.配置環境變量2.安裝Hadoop。在單機情景下,可以單例也可以僞分布式安裝。本次詳細介紹了僞分布式安裝。2.0.Hadoop單機模式2.1.僞分布式模式2.7.關閉YARN/dfs3.安裝spark

結果如圖

Ubuntu16.04安裝Hadoop2.6+Spark1.6+開發執行個體1.配置環境變量2.安裝Hadoop。在單機情景下,可以單例也可以僞分布式安裝。本次詳細介紹了僞分布式安裝。2.0.Hadoop單機模式2.1.僞分布式模式2.7.關閉YARN/dfs3.安裝spark

tip:再次運作例子時候需要手動删除output檔案,否則報錯

删除output檔案

進入hadoop解壓路徑中

vim etc/hadoop/core-site.xml

vim etc/hadoop/hdfs-site.xml

tip 如果出錯,可以删除生成的檔案在/tem路徑下

注意:因為format在/tmp目錄下,是以每次重新開機機器這些檔案會丢失,是以。。。每次開機都需要format一次。

初始化namenode

Ubuntu16.04安裝Hadoop2.6+Spark1.6+開發執行個體1.配置環境變量2.安裝Hadoop。在單機情景下,可以單例也可以僞分布式安裝。本次詳細介紹了僞分布式安裝。2.0.Hadoop單機模式2.1.僞分布式模式2.7.關閉YARN/dfs3.安裝spark

檢視是否正常啟動

Ubuntu16.04安裝Hadoop2.6+Spark1.6+開發執行個體1.配置環境變量2.安裝Hadoop。在單機情景下,可以單例也可以僞分布式安裝。本次詳細介紹了僞分布式安裝。2.0.Hadoop單機模式2.1.僞分布式模式2.7.關閉YARN/dfs3.安裝spark
Ubuntu16.04安裝Hadoop2.6+Spark1.6+開發執行個體1.配置環境變量2.安裝Hadoop。在單機情景下,可以單例也可以僞分布式安裝。本次詳細介紹了僞分布式安裝。2.0.Hadoop單機模式2.1.僞分布式模式2.7.關閉YARN/dfs3.安裝spark

建立一個mapred-site.xml,這裡采用源檔案備份的mapred-site.xml。

vim etc/hadoop/mapred-site.xml

vim etc/hadoop/yarn-site.xml

檢視是否全部正常啟動指令jps,如圖

Ubuntu16.04安裝Hadoop2.6+Spark1.6+開發執行個體1.配置環境變量2.安裝Hadoop。在單機情景下,可以單例也可以僞分布式安裝。本次詳細介紹了僞分布式安裝。2.0.Hadoop單機模式2.1.僞分布式模式2.7.關閉YARN/dfs3.安裝spark
Ubuntu16.04安裝Hadoop2.6+Spark1.6+開發執行個體1.配置環境變量2.安裝Hadoop。在單機情景下,可以單例也可以僞分布式安裝。本次詳細介紹了僞分布式安裝。2.0.Hadoop單機模式2.1.僞分布式模式2.7.關閉YARN/dfs3.安裝spark
Ubuntu16.04安裝Hadoop2.6+Spark1.6+開發執行個體1.配置環境變量2.安裝Hadoop。在單機情景下,可以單例也可以僞分布式安裝。本次詳細介紹了僞分布式安裝。2.0.Hadoop單機模式2.1.僞分布式模式2.7.關閉YARN/dfs3.安裝spark
Ubuntu16.04安裝Hadoop2.6+Spark1.6+開發執行個體1.配置環境變量2.安裝Hadoop。在單機情景下,可以單例也可以僞分布式安裝。本次詳細介紹了僞分布式安裝。2.0.Hadoop單機模式2.1.僞分布式模式2.7.關閉YARN/dfs3.安裝spark
Ubuntu16.04安裝Hadoop2.6+Spark1.6+開發執行個體1.配置環境變量2.安裝Hadoop。在單機情景下,可以單例也可以僞分布式安裝。本次詳細介紹了僞分布式安裝。2.0.Hadoop單機模式2.1.僞分布式模式2.7.關閉YARN/dfs3.安裝spark
Ubuntu16.04安裝Hadoop2.6+Spark1.6+開發執行個體1.配置環境變量2.安裝Hadoop。在單機情景下,可以單例也可以僞分布式安裝。本次詳細介紹了僞分布式安裝。2.0.Hadoop單機模式2.1.僞分布式模式2.7.關閉YARN/dfs3.安裝spark

在/opt/spark/conf的檔案,将spark-env.sh.template複制為spark-env.sh

增加

即可。

可以看到spark配置比較簡單,隻需要解壓,放置指定路徑皆可。

Ubuntu16.04安裝Hadoop2.6+Spark1.6+開發執行個體1.配置環境變量2.安裝Hadoop。在單機情景下,可以單例也可以僞分布式安裝。本次詳細介紹了僞分布式安裝。2.0.Hadoop單機模式2.1.僞分布式模式2.7.關閉YARN/dfs3.安裝spark

可以看到每次shell列印一堆info資訊,為了較少資訊輸出,建立log機制

cp conf/log4j.properties.template conf/log4j.properties

将log4j.properties檔案中的log4j.rootcategory=info, console

修改為 log4j.rootcategory=warn, console

Ubuntu16.04安裝Hadoop2.6+Spark1.6+開發執行個體1.配置環境變量2.安裝Hadoop。在單機情景下,可以單例也可以僞分布式安裝。本次詳細介紹了僞分布式安裝。2.0.Hadoop單機模式2.1.僞分布式模式2.7.關閉YARN/dfs3.安裝spark

啟動spark 1.6 的開發工具 jupyter notebook

tip:如果是spark 2.0+版本運作以下啟動jupyter notebook指令(更新于20160825)

Ubuntu16.04安裝Hadoop2.6+Spark1.6+開發執行個體1.配置環境變量2.安裝Hadoop。在單機情景下,可以單例也可以僞分布式安裝。本次詳細介紹了僞分布式安裝。2.0.Hadoop單機模式2.1.僞分布式模式2.7.關閉YARN/dfs3.安裝spark

輸入測試例子,shift+enter是運作本單元格并且建立新行,依次輸入

Ubuntu16.04安裝Hadoop2.6+Spark1.6+開發執行個體1.配置環境變量2.安裝Hadoop。在單機情景下,可以單例也可以僞分布式安裝。本次詳細介紹了僞分布式安裝。2.0.Hadoop單機模式2.1.僞分布式模式2.7.關閉YARN/dfs3.安裝spark

至此,整個環境搭建和開發過程總結完畢,愉快的開發吧!

<code>注意</code>:spark支援的python版本是python2.7.x,也支援python3.4+。但是在開發程式時候,朋友請保證注意pyhton版本,如果程式和使用核心不同的話,jupyter notebook核心則會報錯。

Ubuntu16.04安裝Hadoop2.6+Spark1.6+開發執行個體1.配置環境變量2.安裝Hadoop。在單機情景下,可以單例也可以僞分布式安裝。本次詳細介紹了僞分布式安裝。2.0.Hadoop單機模式2.1.僞分布式模式2.7.關閉YARN/dfs3.安裝spark