zeppelin 安装使用，测试spark，spark sql

2023-03-20 00:53:11

最近研究学习，发现一个新的大杀器

zeppelin

zeppelin 安装使用，测试spark，spark sql

看这个图标就特别像小时候玩红警的大鲨鱼飞艇，基洛夫

zeppelin 安装使用，测试spark，spark sql

看了看官方的功能

A web-based notebook that enables interactive data analytics.

You can make beautiful data-driven, interactive and collaborative documents with SQL, Scala and more

卧槽

zeppelin 安装使用，测试spark，spark sql

web形式的笔记本，交互式数据分析

可以优雅的进行协作开发。

支持的语言以及框架

zeppelin 安装使用，测试spark，spark sql

你们说这是不是大杀器

zeppelin 安装使用，测试spark，spark sql

言归正传，我们先走个安装节奏

我是下的all包

zeppelin 安装使用，测试spark，spark sql

然后找找官方有不有快速开始的文档

发现就是改几个配置就可以直接启动了。

貌似是单点的，不是分布式的

修改监听ip和端口

在zeppelin-site.xml文件中

zeppelin 安装使用，测试spark，spark sql

修改zeppelin-env.sh

添加如下配置（这里我只使用了hadoop 和 spark，后续可能会有hive R 等需求，我再补个相关的文章）

export JAVA_HOME=/home/hadoop1/softs/jdk-1.8.0_92

export MASTER=spark://hadoop5:7077

export SPARK_HOME=/home/hadoop1/softs/spark-2.1.0-bin-hadoop2.6

export HADOOP_CONF_DIR=/home/hadoop1/softs/hadoop-2.6.0

完事就可以启动了，安全简单系数9.0

zeppelin 安装使用，测试spark，spark sql

进去页面看看

zeppelin 安装使用，测试spark，spark sql

官方建议需要再对系统内做些配置

zeppelin 安装使用，测试spark，spark sql

我这边修改了spark 和 hdfs的配置

zeppelin 安装使用，测试spark，spark sql

这里面hdfs是叫file，主要是修改了hdfs地址，以及操作账户

zeppelin 安装使用，测试spark，spark sql

配置完了，我们走套代码节奏

结果出师不利，出了错误

zeppelin 安装使用，测试spark，spark sql

什么鬼，无法初始化

java.lang.NoClassDefFoundError: Could not initialize class org.apache.spark.rdd.RDDOperationScope$

at org.apache.spark.SparkContext.withScope(SparkContext.scala:701)

at org.apache.spark.SparkContext.textFile(SparkContext.scala:819)

... 46 elided

二话不说，先google吧

结果找到个解决套路，删除这3个包，然后重启下飞艇就可以起飞了

zeppelin 安装使用，测试spark，spark sql

发现问题不断呀

zeppelin 安装使用，测试spark，spark sql

结果好不容易跑起来一次，出了另外一个错误

zeppelin 安装使用，测试spark，spark sql

集群配置问题，重启一下就好了

最后来个效果图

zeppelin 安装使用，测试spark，spark sql

zeppelin 安装使用，测试spark，spark sql

继续阅读

pyspark调用spark以及执行带in语句参数的hql示例

用写sql的思路写 pyspark

pyspark学习(一)—pyspark的安装与基础语法一 Pysaprk的安装二：pyspark的简单语法END

【Spark Mllib】K-均值聚类——电影类型K-均值聚类数据特征提取

一篇文章让你精通Java JSP规范

世界因大数据而改变

Spark的RDD转换算子-双value型Spark的RDD转换算子-双value型

SparkSQL项目练习1 准备数据2 需求：各区域热门商品Top3

延云行业搜索数据库在大数据生态中位置和重要性大数据的挑战大数据技术的现状延云行业搜索数据库

Spark在windows环境里跑时报错找不到org.apache.hadoop.fs.FSDataInputStream

Spark流式分析系统实现流式实时日志分析系统

Scala和Java二种方式实战Spark Streaming开发

Spark基础:Spark简介及特点,运行模式,安装Spark,Driver与Executor,Local模式,Standalone模式,Yarn模式,Mesos模式,WordCount案例,HA配置第1章 Spark概述第2章 Spark运行模式第3章案例实操

Spark实现wordcount

大数据排错SparkSpark集群启动时候，JAVA_HOME is not sethadoop集群，某台服务器jps无任何输出IDEAkafkahadoopspark sqlfile permissionsIDEA本地测试 - OutOfMemoryError: GC overhead limit exceededhdfs负载均衡

spark/scala关于【资源文件】加载方法概述外部文件加载方案测试资源文件打包入jar包中小结