天天看點

在windows上面安裝并用jupyter運作pyspark

intro

首先,這裡介紹的方法很基本,大牛可以繞過了。

由于個人的測試需要,打算在自己的pc上面安pyspark,來熟悉mllib。

翻了一下bing和狗,方法不少,試了linux虛拟機安裝,vmware 下cloudera的安裝。走到後面都會發現,這些方法并不合适,或者對機器有要求,或者對安裝者的背景有要求。

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%

原網頁好像被牆了,大家檢視的時候注意一下

這裡主要是把原文的方法列一下,加上我碰到的一些問題。

1,安裝anaconda 和 gow(gnu on windows)

gow的作用是在cmd下面執行linux 指令。安裝結束之後可以運作:

如果安裝正确,可以傳回

2,安裝spark

我選的是default的設定下的版本: spark-2.1.1-bin-hadoop2.7.tgz.

下載下傳好後,記一下路徑名稱。

下面要确認java已經安裝。

3,設定路徑

到這一步,pyspark就已經裝好了。

4,使用pyspark

這個會打開ipython notebook。

如果得到的輸出是’1000000‘,說明系統正常。如果出現error,可以回頭看一下路徑是否正确。

最後,我會繼續用pyspark測試。如果有其他問題會在下面更新。