在windows上面安裝并用jupyter運作pyspark

2021-11-08 13:45:07

intro

首先，這裡介紹的方法很基本，大牛可以繞過了。

由于個人的測試需要，打算在自己的pc上面安pyspark，來熟悉mllib。

翻了一下bing和狗，方法不少，試了linux虛拟機安裝，vmware 下cloudera的安裝。走到後面都會發現，這些方法并不合适，或者對機器有要求，或者對安裝者的背景有要求。

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%

原網頁好像被牆了，大家檢視的時候注意一下

這裡主要是把原文的方法列一下，加上我碰到的一些問題。

1，安裝anaconda 和 gow（gnu on windows）

gow的作用是在cmd下面執行linux 指令。安裝結束之後可以運作：

如果安裝正确，可以傳回

2，安裝spark

我選的是default的設定下的版本: spark-2.1.1-bin-hadoop2.7.tgz.

下載下傳好後，記一下路徑名稱。

下面要确認java已經安裝。

3，設定路徑

到這一步，pyspark就已經裝好了。

4，使用pyspark

這個會打開ipython notebook。

如果得到的輸出是’1000000‘,說明系統正常。如果出現error，可以回頭看一下路徑是否正确。

最後，我會繼續用pyspark測試。如果有其他問題會在下面更新。

繼續閱讀