windows下python結合spark +java+ pyspark安裝配置

2023-05-05 19:00:57

預設你已經安裝好了python

一、 Java配置

首先去官網http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html下載下傳Java SE Development Kit 8u172，安裝之後。進行以下步驟：

1.建立系統變量：

變量名：	JAVA_HOME
變量值：	F:\Java\jdk1.8.0_172(即java的jdk安裝目錄)

2.再建立一個系統變量

變量名：	CLASSPATH
變量值：	.;%JAVA_HOME%\lib\dt.jar;%JAVA_HOME%\lib\tools.jar;

3.在系統變量Path中逐個添加以下四個：

%JAVA_HOME%\bin

%JAVA_HOME%\jre\bin

F:\Java\jdk1.8.0_172\bin

Tips：bin前的路徑視自己java安裝路徑調整

F:\Java\jre1.8.0_172\bin

Tips：bin前的路徑視自己java安裝路徑調整

4.驗證是否安裝完成

在cmd中輸入java

在cmd中輸入javac

沒有報錯就是java配置完成

二、 spark安裝

（一）spark環境配置

1.去http://spark.apache.org/downloads.html網站下載下傳相應spark

解壓下載下傳的檔案，假設解壓目錄為：F:\spark-1.8.0-bin-hadoop2.7。

2.建立系統變量，變量名：SPARK_HOME

變量值為：F:\spark-1.8.0-bin-hadoop2.7

3.将F:\spark-1.8.0-bin-hadoop2.7添加到系統Path變量，Tips：bin前的路徑視自己java安裝路徑調整

（二）安裝必須要依賴的hadoop

1.去http://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-3.1.0/hadoop-3.1.0.tar.gz下載下傳hadoop-3.1.0.tar.gz，但是不要下載下傳hadoop-3.0.1-src.tar.gz這個

2.解壓下載下傳的檔案夾，将相關庫添加到系統Path變量中：F:\hadoop-3.1.0\bin；

3.建立變量，變量名為HADOOP_HOME，變量值為：F:\hadoop-3.1.0

（三）收尾

1.把java、hadoop、spark中的bin加入到系統變量Path中

2.然後在cmd中輸入pipinstall pyspark

3.pyspark安裝完成後，在cmd中輸入pyspark顯示下圖，表示安裝完成，可以直接輸入python代碼進行功能實作

windows下python結合spark +java+ pyspark安裝配置

4.在pycharm中輸入代碼：

from pyspark import SparkContext

logFile = "F:/spark-2.3.0-bin-hadoop2.7/README.md"

sc = SparkContext("local","Simple App")

logData = sc.textFile(logFile).cache()

numAs = logData.filter(lambda s: 'a' in s).count()

numBs = logData.filter(lambda s: 'b' in s).count()

print("Lines with a: %i, lines with b: %i"%(numAs, numBs))

運作結果為：

Lineswith a: 61, lines with b: 30

感謝以下作者：

http://www.cnblogs.com/eczhou/p/5216918.html

windows下python結合spark +java+ pyspark安裝配置

繼續閱讀

大資料排錯SparkSpark叢集啟動時候，JAVA_HOME is not sethadoop叢集，某台伺服器jps無任何輸出IDEAkafkahadoopspark sqlfile permissionsIDEA本地測試 - OutOfMemoryError: GC overhead limit exceededhdfs負載均衡

Small tricks

libsvm for python 安裝

學習軟體測試基礎測試第七天

Zeppelin 配置通路 REST APIApache Zeppelin Configuration REST API

【Torch】最簡潔logging使用指南

27. Remove Element(清單)題目代碼

Windows下配置Apache的SSL服務

Mac｜Windows系統本地照片自動上傳到伺服器

Cloud Studio初體驗

spark/scala關于【資源檔案】加載方法概述外部檔案加載方案測試資源檔案打包入jar包中小結

使用 ctypes 進行 Python 和 C 的混合程式設計

【python】【資料處理】畫多元資料分布圖

【python】netconf協定對接管理裝置

「Python 網絡自動化」NETCONF —— Python 使用 NETCONF 管理配置 H3C 網絡裝置

在python中建立excel并寫入