一、需要的东西
(1)java JDK 1.8 以上
(2)spark
(3)hadoop(不确定是否必须)+winutils.exe执行文件
(4)python
下面就一个个说明
二、具体操作
【下面所有软件安装时,请注意路径,路径不要有空格或者其他奇怪的符号,否则会出现奇形怪状的错误,切记切记】
(1)安装jdk
这一步比较简单,可以参考这个
https://www.cnblogs.com/xuyangblog/p/5455381.html
(2)安装spark
spark下载网址:http://spark.apache.org/downloads.html
![](https://img.laitimes.com/img/_0nNw4CM6IyYiwiM6ICdiwiIwczLcVmds92czlGZvwVP9EUTDZ0aRJkSwk0LcxGbpZ2LcBDM08CXlpXazRnbvZ2LcRlMMVDT2EWNvwFdu9mZvwVMJRVTwhmMjhWMXFGdWdkW2R2MMBjVtJWd0ckW65UbM5WOHJWa5kHT20ESjBjUIF2LcRHelR3LcJzLctmch1mclRXY39TM3MTN1YDN5ATOycDM4EDMy8CX0Vmbu4GZzNmLn9Gbi1yZtl2Lc9CX6MHc0RHaiojIsJye.jpg)
下载完后,安装(注意路径),安装后就是这样
然后配置环境变量,
A.新建一个系统变量SPARK_HOME,路径写到上图所示就ok
B.在环境变量Path中添加 ‘%SPARK_HOME%\bin’,注意和上一个变量之间要有分号‘;’
(3)安装hadoop
hadoop的版本注意要和spark一致,比如上面spark的名字叫 spark-2.2.0-bin-hadoop2.7,你就安装个2.7的hadoop
hadoop下载地址(清华镜像网站,下载速度贼快)https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/ 打开后如下
同样要配置环境变量,步骤和配置spark类似,新建一个系统变量HADOOP_HOME
也要在path里面加入 %HADOOP_HOME%\bin
然后下载winutils,下载地址https://github.com/steveloughran/winutils ,进去后选择对应的hadoop版本,进入bin下下载winutils,然后把它赋值到hadoop的bin文件夹下,后面要用
配置好了可以测试一下,cmd一下,输入hadoop,成功了会是这样
(4)安装python
去下载一个你想用的python版本,我下载的的anaconda3,里面包括python和一些常用的packages,很方便,然后在path里面加
python的路径
最后一步,重要,在你的C盘下确认是否有 C:\tmp\hive 这个文件路径,如果没有就自己创建,如果有,就cmd一下,执行命令
winutils.exe chmod -R 777 \tmp\hive
避免引发权限错误
好了,可以看看结果了,cmd,输入pyspark,如果成功了,就可以看到如下画面