在windows上面安装并用jupyter运行pyspark

2021-11-08 13:45:07

intro

首先，这里介绍的方法很基本，大牛可以绕过了。

由于个人的测试需要，打算在自己的pc上面安pyspark，来熟悉mllib。

翻了一下bing和狗，方法不少，试了linux虚拟机安装，vmware 下cloudera的安装。走到后面都会发现，这些方法并不合适，或者对机器有要求，或者对安装者的背景有要求。

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%

原网页好像被墙了，大家查看的时候注意一下

这里主要是把原文的方法列一下，加上我碰到的一些问题。

1，安装anaconda 和 gow（gnu on windows）

gow的作用是在cmd下面执行linux 命令。安装结束之后可以运行：

如果安装正确，可以返回

2，安装spark

我选的是default的设置下的版本: spark-2.1.1-bin-hadoop2.7.tgz.

下载好后，记一下路径名称。

下面要确认java已经安装。

3，设置路径

到这一步，pyspark就已经装好了。

4，使用pyspark

这个会打开ipython notebook。

如果得到的输出是’1000000‘,说明系统正常。如果出现error，可以回头看一下路径是否正确。

最后，我会继续用pyspark测试。如果有其他问题会在下面更新。

继续阅读