Spark-数据分析可视化Zeppelin

2016-04-25 23:50:00

Apache Zeppelin提供了web版的类似ipython的notebook，用于做数据分析和可视化。背后可以接入不同的数据处理引擎，包括Spark, hive, tajo等，原生支持scala, Java, shell, markdown等。它的整体展现和使用形式和Databricks Cloud是一样的。

其他组件都是好安装的，直接mvn install是没问题的。而且zeppelin-web项目，里面使用了node, grunt, bower这些前端的工具。可以自己源码编译也可以使用二进制包直接使用。目前官网最新的版本是0.5.6版本，支持spark1.5和hadoop2.x版本。

自己编译：

- 安装好node, grunt, bower

修改pom

进入zeppelin-web目录下，执行 npm install。它会根据package.json的描述安装一些grunt的组件，安装bower，然后再目录下生产一个node_modules目录。

bower –alow-root install，会根据bower.json安装前端库依赖

grunt –force，会根据Gruntfile.js整理web文件

mvn install -DskipTests，把web项目打包，在target目录下会生成war

需要在pom.xml里添加：

到此处就已经编译完成了。

配置

在zeppelin parent目录下，修改conf文件夹里的zeppelin-env.sh和zeppelin-site.xml，可以是默认配置，但要把两个文件原本的无效后缀去掉。

zeppelin parent目录下执行

漂亮主页

zeppelin parent目录下会看到一个notebook文件夹，按notebook的名字命名区分了多个子目录。目录下是一个note.json文件，记录了每个notebook里输入的代码和执行结果，启动的时候会加载起来。

编码

使用的是scala，notebook，可以直接写scala代码

标识%md, %sh, %sql, %spark, %hive, %tajo来区分要执行的是什么

进入tutorial notebook，它里面已经写好了例子：

apache zeppelin分布式计算、数据分析从业者，代码量少，模块很清楚，可以尝试接入不同计算引擎，试试任务运行、可视化效果。没有过多复杂的操作，只是区分了多个notebook，每个notebook里做单独的分析处理工作，流程和结果会被保存下来。此外，为spark做了更好的支持，比如默认是scala环境，默认sc已经创建好，即spark local可跑，默认spark sql有可视化效果。

Publish

Zeppelin provides an URL to display the result only, that page does not include Zeppelin’s menu and buttons. This way, you can easily embed it as an iframe inside of your website.

Spark-数据分析可视化Zeppelin

继续阅读

httpd dead but subsys locked;No space left on device:Couldn't create accept loc

apache (httpd)不支持中文路径问题先卸载yum安装的httpd再用源码安装，重装httpd再安装支持中文的插件遇到问题

搭建httpd服务

windows下配置Apache的vhost初次接触，强烈欢迎拍砖，指出错误

Apache与PHP环境下配置本地虚拟主机

Linux 7 中配置Apache服务，及禁止ip访问，删除apache广告页面。

Apache配置文件中的deny和allow的使用

Apache 配置默认编码

服务器配置——Apache

Apache静态文件访问配置（书封服务器）

apache httpd 配置

Ubuntu16.04安装Apache+MySQL+PHP1. 安装Apache2. 安装MySQL3. 安装PHP4. 安装phpMyAdmin

Apache配置SSLApache配置SSL

Windows下配置Apache的SSL服务

Apache2.4.x 配置文件详解Apache配置需要了解如下：开始讲解：

配置apache支持PHP（win7）