在使用SmartBI进行数据分析时,通过MPP高速缓存库可以大大加快计算速度,提高工作效率。我司SmartBI MPP高速缓存库的底层技术为ClickHouse。ClickHouse是一个面向联机分析处理(OLAP)的开源的面向列式存储的数据库管理系统,与Hadoop, Spark相比,ClickHouse很轻量级,由俄罗斯第一大搜索引擎Yandex于2016年6月发布, 开发语言为C++。
ClickHouse的特点:
1、支持线性扩展,简单方便,高可靠性;
2、速度快:比Vertica快5倍,比Hive快279倍,比MySQL快800倍,其可处理的数据级别已达到10亿级别;
3、功能多:支持数据统计分析各种场景,支持类SQL查询,异地复制部署。
数据源配置
选择定制管理->数据管理->数据源,将需要导入的表,从可用数据库资源,添加进已选数据库资源。这个页面因为可用资源过大,可能会提示等待时间过长,点击等待就好。
如果现有的报表数据集是明细数据,也可以从当前数据集进行导入,此步可跳过。
创建自助数据集
点击自助数据集。
根据步骤选择你需要导入的表,可以直接从数据连接中选择数据源,也可以基于现有的数据集。一般我们会选择直接从Hive库中加载数据到MPP。
第一次加载时选择全量抽取,其他保持默认选择即可,然后点击立即抽取。
保存数据集到对应的目录下即可,为了区分数据是否在MPP高速缓存库下,建议可以数据集命名时,增加MPP_前缀以和报表数据集做区分。
保存完成后,数据会开始抽取,右上角会显示抽取时间,结束后显示同步完成。在对应的目录下,就可以找到刚刚自定义的数据集。
要注意的是,默认情况下,在立即抽取完成后,系统会自动设置定时抽取。如果不需要定时抽取,则要在设置定时抽取界面里,取消勾选如下选项。
开始透视分析
右键新建分析,选择透视分析就可以和往常一样进行透视分析了,会发现统计计算的速度要比基于Mysql的分析快很多。Enjoy!