天天看點

WIN7下安裝pyspark

一、需要的東西

(1)java JDK 1.8 以上

(2)spark 

(3)hadoop(不确定是否必須)+winutils.exe執行檔案

(4)python

下面就一個個說明

二、具體操作

【下面所有軟體安裝時,請注意路徑,路徑不要有空格或者其他奇怪的符号,否則會出現奇形怪狀的錯誤,切記切記】

(1)安裝jdk

這一步比較簡單,可以參考這個

https://www.cnblogs.com/xuyangblog/p/5455381.html

(2)安裝spark

spark下載下傳網址:http://spark.apache.org/downloads.html

WIN7下安裝pyspark

下載下傳完後,安裝(注意路徑),安裝後就是這樣

WIN7下安裝pyspark

然後配置環境變量,

A.建立一個系統變量SPARK_HOME,路徑寫到上圖所示就ok

WIN7下安裝pyspark

 B.在環境變量Path中添加 ‘%SPARK_HOME%\bin’,注意和上一個變量之間要有分号‘;’

(3)安裝hadoop

hadoop的版本注意要和spark一緻,比如上面spark的名字叫 spark-2.2.0-bin-hadoop2.7,你就安裝個2.7的hadoop

hadoop下載下傳位址(清華鏡像網站,下載下傳速度賊快)https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/ 打開後如下

WIN7下安裝pyspark

同樣要配置環境變量,步驟和配置spark類似,建立一個系統變量HADOOP_HOME

WIN7下安裝pyspark

 也要在path裡面加入 %HADOOP_HOME%\bin

然後下載下傳winutils,下載下傳位址https://github.com/steveloughran/winutils ,進去後選擇對應的hadoop版本,進入bin下下載下傳winutils,然後把它指派到hadoop的bin檔案夾下,後面要用

配置好了可以測試一下,cmd一下,輸入hadoop,成功了會是這樣

WIN7下安裝pyspark

 (4)安裝python

去下載下傳一個你想用的python版本,我下載下傳的的anaconda3,裡面包括python和一些常用的packages,很友善,然後在path裡面加

WIN7下安裝pyspark

python的路徑

最後一步,重要,在你的C槽下确認是否有  C:\tmp\hive 這個檔案路徑,如果沒有就自己建立,如果有,就cmd一下,執行指令

winutils.exe chmod -R 777 \tmp\hive

避免引發權限錯誤

好了,可以看看結果了,cmd,輸入pyspark,如果成功了,就可以看到如下畫面

WIN7下安裝pyspark