預設你已經安裝好了python
一、 Java配置
首先去官網http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html下載下傳Java SE Development Kit 8u172,安裝之後。進行以下步驟:
1.建立系統變量:
變量名: | JAVA_HOME |
變量值: | F:\Java\jdk1.8.0_172(即java的jdk安裝目錄) |
2.再建立一個系統變量
變量名: | CLASSPATH |
變量值: | .;%JAVA_HOME%\lib\dt.jar;%JAVA_HOME%\lib\tools.jar; |
3.在系統變量Path中逐個添加以下四個:
%JAVA_HOME%\bin
%JAVA_HOME%\jre\bin
F:\Java\jdk1.8.0_172\bin
Tips:bin前的路徑視自己java安裝路徑調整
F:\Java\jre1.8.0_172\bin
Tips:bin前的路徑視自己java安裝路徑調整
4.驗證是否安裝完成
在cmd中輸入java
在cmd中輸入javac
沒有報錯就是java配置完成
二、 spark安裝
(一)spark環境配置
1.去http://spark.apache.org/downloads.html網站下載下傳相應spark
解壓下載下傳的檔案,假設解壓目錄為:F:\spark-1.8.0-bin-hadoop2.7。
2.建立系統變量,變量名:SPARK_HOME
變量值為:F:\spark-1.8.0-bin-hadoop2.7
3.将F:\spark-1.8.0-bin-hadoop2.7添加到系統Path變量,Tips:bin前的路徑視自己java安裝路徑調整
(二)安裝必須要依賴的hadoop
1.去http://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-3.1.0/hadoop-3.1.0.tar.gz下載下傳hadoop-3.1.0.tar.gz,但是不要下載下傳hadoop-3.0.1-src.tar.gz這個
2.解壓下載下傳的檔案夾,将相關庫添加到系統Path變量中:F:\hadoop-3.1.0\bin;
3.建立變量,變量名為HADOOP_HOME,變量值為:F:\hadoop-3.1.0
(三)收尾
1.把java、hadoop、spark中的bin加入到系統變量Path中
2.然後在cmd中輸入pipinstall pyspark
3.pyspark安裝完成後,在cmd中輸入pyspark顯示下圖,表示安裝完成,可以直接輸入python代碼進行功能實作
4.在pycharm中輸入代碼:
from pyspark import SparkContext
logFile = "F:/spark-2.3.0-bin-hadoop2.7/README.md"
sc = SparkContext("local","Simple App")
logData = sc.textFile(logFile).cache()
numAs = logData.filter(lambda s: 'a' in s).count()
numBs = logData.filter(lambda s: 'b' in s).count()
print("Lines with a: %i, lines with b: %i"%(numAs, numBs))
運作結果為:
Lineswith a: 61, lines with b: 30
感謝以下作者:
http://www.cnblogs.com/eczhou/p/5216918.html