天天看点

WIN7下安装pyspark

一、需要的东西

(1)java JDK 1.8 以上

(2)spark 

(3)hadoop(不确定是否必须)+winutils.exe执行文件

(4)python

下面就一个个说明

二、具体操作

【下面所有软件安装时,请注意路径,路径不要有空格或者其他奇怪的符号,否则会出现奇形怪状的错误,切记切记】

(1)安装jdk

这一步比较简单,可以参考这个

https://www.cnblogs.com/xuyangblog/p/5455381.html

(2)安装spark

spark下载网址:http://spark.apache.org/downloads.html

WIN7下安装pyspark

下载完后,安装(注意路径),安装后就是这样

WIN7下安装pyspark

然后配置环境变量,

A.新建一个系统变量SPARK_HOME,路径写到上图所示就ok

WIN7下安装pyspark

 B.在环境变量Path中添加 ‘%SPARK_HOME%\bin’,注意和上一个变量之间要有分号‘;’

(3)安装hadoop

hadoop的版本注意要和spark一致,比如上面spark的名字叫 spark-2.2.0-bin-hadoop2.7,你就安装个2.7的hadoop

hadoop下载地址(清华镜像网站,下载速度贼快)https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/ 打开后如下

WIN7下安装pyspark

同样要配置环境变量,步骤和配置spark类似,新建一个系统变量HADOOP_HOME

WIN7下安装pyspark

 也要在path里面加入 %HADOOP_HOME%\bin

然后下载winutils,下载地址https://github.com/steveloughran/winutils ,进去后选择对应的hadoop版本,进入bin下下载winutils,然后把它赋值到hadoop的bin文件夹下,后面要用

配置好了可以测试一下,cmd一下,输入hadoop,成功了会是这样

WIN7下安装pyspark

 (4)安装python

去下载一个你想用的python版本,我下载的的anaconda3,里面包括python和一些常用的packages,很方便,然后在path里面加

WIN7下安装pyspark

python的路径

最后一步,重要,在你的C盘下确认是否有  C:\tmp\hive 这个文件路径,如果没有就自己创建,如果有,就cmd一下,执行命令

winutils.exe chmod -R 777 \tmp\hive

避免引发权限错误

好了,可以看看结果了,cmd,输入pyspark,如果成功了,就可以看到如下画面

WIN7下安装pyspark