intro
首先,這裡介紹的方法很基本,大牛可以繞過了。
由于個人的測試需要,打算在自己的pc上面安pyspark,來熟悉mllib。
翻了一下bing和狗,方法不少,試了linux虛拟機安裝,vmware 下cloudera的安裝。走到後面都會發現,這些方法并不合适,或者對機器有要求,或者對安裝者的背景有要求。
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
原網頁好像被牆了,大家檢視的時候注意一下
這裡主要是把原文的方法列一下,加上我碰到的一些問題。
1,安裝anaconda 和 gow(gnu on windows)
gow的作用是在cmd下面執行linux 指令。安裝結束之後可以運作:
如果安裝正确,可以傳回
2,安裝spark
我選的是default的設定下的版本: spark-2.1.1-bin-hadoop2.7.tgz.
下載下傳好後,記一下路徑名稱。
下面要确認java已經安裝。
3,設定路徑
到這一步,pyspark就已經裝好了。
4,使用pyspark
這個會打開ipython notebook。
如果得到的輸出是’1000000‘,說明系統正常。如果出現error,可以回頭看一下路徑是否正确。
最後,我會繼續用pyspark測試。如果有其他問題會在下面更新。