intro
首先,这里介绍的方法很基本,大牛可以绕过了。
由于个人的测试需要,打算在自己的pc上面安pyspark,来熟悉mllib。
翻了一下bing和狗,方法不少,试了linux虚拟机安装,vmware 下cloudera的安装。走到后面都会发现,这些方法并不合适,或者对机器有要求,或者对安装者的背景有要求。
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
原网页好像被墙了,大家查看的时候注意一下
这里主要是把原文的方法列一下,加上我碰到的一些问题。
1,安装anaconda 和 gow(gnu on windows)
gow的作用是在cmd下面执行linux 命令。安装结束之后可以运行:
如果安装正确,可以返回
2,安装spark
我选的是default的设置下的版本: spark-2.1.1-bin-hadoop2.7.tgz.
下载好后,记一下路径名称。
下面要确认java已经安装。
3,设置路径
到这一步,pyspark就已经装好了。
4,使用pyspark
这个会打开ipython notebook。
如果得到的输出是’1000000‘,说明系统正常。如果出现error,可以回头看一下路径是否正确。
最后,我会继续用pyspark测试。如果有其他问题会在下面更新。