一、需要的東西
(1)java JDK 1.8 以上
(2)spark
(3)hadoop(不确定是否必須)+winutils.exe執行檔案
(4)python
下面就一個個說明
二、具體操作
【下面所有軟體安裝時,請注意路徑,路徑不要有空格或者其他奇怪的符号,否則會出現奇形怪狀的錯誤,切記切記】
(1)安裝jdk
這一步比較簡單,可以參考這個
https://www.cnblogs.com/xuyangblog/p/5455381.html
(2)安裝spark
spark下載下傳網址:http://spark.apache.org/downloads.html
![](https://img.laitimes.com/img/_0nNw4CM6IyYiwiM6ICdiwiIwczLcVmds92czlGZvwVP9EUTDZ0aRJkSwk0LcxGbpZ2LcBDM08CXlpXazRnbvZ2LcRlMMVDT2EWNvwFdu9mZvwVMJRVTwhmMjhWMXFGdWdkW2R2MMBjVtJWd0ckW65UbM5WOHJWa5kHT20ESjBjUIF2LcRHelR3LcJzLctmch1mclRXY39TM3MTN1YDN5ATOycDM4EDMy8CX0Vmbu4GZzNmLn9Gbi1yZtl2Lc9CX6MHc0RHaiojIsJye.jpg)
下載下傳完後,安裝(注意路徑),安裝後就是這樣
然後配置環境變量,
A.建立一個系統變量SPARK_HOME,路徑寫到上圖所示就ok
B.在環境變量Path中添加 ‘%SPARK_HOME%\bin’,注意和上一個變量之間要有分号‘;’
(3)安裝hadoop
hadoop的版本注意要和spark一緻,比如上面spark的名字叫 spark-2.2.0-bin-hadoop2.7,你就安裝個2.7的hadoop
hadoop下載下傳位址(清華鏡像網站,下載下傳速度賊快)https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/ 打開後如下
同樣要配置環境變量,步驟和配置spark類似,建立一個系統變量HADOOP_HOME
也要在path裡面加入 %HADOOP_HOME%\bin
然後下載下傳winutils,下載下傳位址https://github.com/steveloughran/winutils ,進去後選擇對應的hadoop版本,進入bin下下載下傳winutils,然後把它指派到hadoop的bin檔案夾下,後面要用
配置好了可以測試一下,cmd一下,輸入hadoop,成功了會是這樣
(4)安裝python
去下載下傳一個你想用的python版本,我下載下傳的的anaconda3,裡面包括python和一些常用的packages,很友善,然後在path裡面加
python的路徑
最後一步,重要,在你的C槽下确認是否有 C:\tmp\hive 這個檔案路徑,如果沒有就自己建立,如果有,就cmd一下,執行指令
winutils.exe chmod -R 777 \tmp\hive
避免引發權限錯誤
好了,可以看看結果了,cmd,輸入pyspark,如果成功了,就可以看到如下畫面