zeppelin入门并集成Spark2.3.2和Carbondata1.5.2步骤

2023-03-17 15:31:27

简介：

官网：http://zeppelin.apache.org/

官网简介：基于Web的notebook，支持SQL，Scala等数据驱动的交互式数据分析和协作文档。

环境：

下载安装包：

下载地址：http://zeppelin.apache.org/download.html

zeppelin入门并集成Spark2.3.2和Carbondata1.5.2步骤

如上图所示，下载页面上有两个二进制安装包。这两个二进制文件唯一的区别是安装包中包含的解释器不同。

all interpreter package:将其解压到您选择的目录中，就可以开始了。
net-install interpreter package:解压包并根据以下链接来安装额外的解释器。如果不确定，就运行./bin/install- interpretation .sh --all 安装所有的解释器。

http://zeppelin.apache.org/docs/0.8.1/usage/interpreter/installation.html

下载zeppelin-0.8.1-bin-all.tgz，然后上传至服务器，如下图所示：

zeppelin入门并集成Spark2.3.2和Carbondata1.5.2步骤

上传至/opt/software目录中。

安装步骤：

使用以下命令，将安装包解压到/opt/apps目录中：

cd /opt/software

tar -zxf zeppelin-0.8.1-bin-all.tgz -C /opt/apps/

cd /opt/apps/zeppelin-0.8.1-bin-all
配置zeppelin-env.sh文件：
1. cd conf/
  
  cp zeppelin-env.sh.template zeppelin-env.sh
  
  vim zeppelin-env.sh
2. 修改以下配置：
  
  export JAVA_HOME=/opt/java/jdk1.8.0_131
  
  export MASTER=yarn-client
  
  export SPARK_HOME=/opt/apps/spark
  
  export SPARK_SUBMIT_OPTIONS="--packages com.databricks:spark-csv_2.11:1.2.0"
  
  export HADOOP_CONF_DIR=/etc/hadoop/conf
配置zeppelin-site.xml文件：
1. cp zeppelin-site.xml.template zeppelin-site.xml
  
  vim zeppelin-site.xml
2. 修改以下配置，修改zeppelin的端口号为58888：
  
  <property>
  
  <name>zeppelin.server.port</name>
  
  <value>58888</value>
  
  <description>Server port.</description>
  
  </property>
往spark的$SPARK_HOME/jars/中添加Carbondata的依赖包：

zeppelin入门并集成Spark2.3.2和Carbondata1.5.2步骤
替换zeppelin中的jackson依赖包：

cd $ZEPPELIN_HOME/lib

rm -rf jackson-databind-2.8.11.1.jar

cp $SPARK_HOME/jars/jackson-databind-2.6.7.1.jar ./

结果如下：

zeppelin入门并集成Spark2.3.2和Carbondata1.5.2步骤
将下图两个carbondata的依赖包，添加到hadoop的/opt/cloudera/parcels/CDH/lib/hadoop/lib目录下：

zeppelin入门并集成Spark2.3.2和Carbondata1.5.2步骤

启动zeppelin

基本操作zeppelin

打开浏览器，输入主机名:+58888端口号，进入zeppelin界面：

zeppelin入门并集成Spark2.3.2和Carbondata1.5.2步骤
点击以下红框圈住的连接，可以创建note：

zeppelin入门并集成Spark2.3.2和Carbondata1.5.2步骤
点击以下红框圈住的连接，可以配置解释器：

zeppelin入门并集成Spark2.3.2和Carbondata1.5.2步骤
点击Interpreter进行配置：

zeppelin入门并集成Spark2.3.2和Carbondata1.5.2步骤
对hdfs进行配置：

zeppelin入门并集成Spark2.3.2和Carbondata1.5.2步骤
对spark进行配置：

zeppelin入门并集成Spark2.3.2和Carbondata1.5.2步骤
。。。

zeppelin入门并集成Spark2.3.2和Carbondata1.5.2步骤
返回首页，点击create new note，可以创建一个note，创建时输入note名称，并选择解释器，点击创建：

zeppelin入门并集成Spark2.3.2和Carbondata1.5.2步骤
首先输入声明，其次输入指令进行操作，指令可以试类SQL，也可以是Scala或者python程序:

zeppelin入门并集成Spark2.3.2和Carbondata1.5.2步骤
根据查询结果，具有不同的图表展示：

zeppelin入门并集成Spark2.3.2和Carbondata1.5.2步骤
也可以直接输入程序：

zeppelin入门并集成Spark2.3.2和Carbondata1.5.2步骤
spark的声明有如下图所示：

zeppelin入门并集成Spark2.3.2和Carbondata1.5.2步骤
具体配置详见页面：http://zeppelin.apache.org/docs/0.8.1/interpreter/spark.html

继续阅读