天天看点

浅谈大数据平台架构离线计算:离线数据同步:实时计算:实时数据同步:多维分析(即席查询):机器学习:深度学习:资源管理器:集群管理:

什么是大数据平台           

有三个疑问:

1.使用Cloudera或Hortonworks之类的Hadoop发行版本公司的提供的Hadoop套件,配置些参数,找几台服务器部署起来就算是一套大数据平台吗?

2.数据开发人员平时的工作是不是写些MR或者SQL任务,使用原生的命令行提交任务就可以了吗?

3.平台开发人员日常的工作是不是处理下集群的故障,给业务方扫盲,纠正各种框架组件使用姿势呢?

大数据平台个人理解:

是基于开源或自研组件的基础上创造更多的附件价值,提供给用户一个

完整的大数据业务解决方案,而不仅仅是做一个集群的维护者

大数据平台的价值
                                       

1.数据开发角度

一.降低数据开发门槛

二.提升数据开发人员效率

2.运维角度

一.降低运维门槛

二.提升运维效率

3.公司角度

一.数据统一管理(OneData理念),降低成本

大数据平台架构选型

                                    
浅谈大数据平台架构离线计算:离线数据同步:实时计算:实时数据同步:多维分析(即席查询):机器学习:深度学习:资源管理器:集群管理:

离线计算:

1.Spark+SparkSQL

2.MR(Hadoop)+HiveSQL

离线数据同步:

1.DataX(Alibaba,开源支持单机版本)

  1. FlinkX(Dtstack,开源支持单机,standalone,yarn 模式)
  2. Sqoop(只能做Hadoop和关系型数据库之间的数据同步)
  3. Kettle

实时计算:

1.Flink

2.SparkStreaming

  1. Storm
  2. JStorm(Alibaba)
  3. StreamCQL(华为)

实时数据同步:

1.Flume

  1. Logstash(Elastic)
  2. JLogstash(Dtstack)

多维分析(即席查询):

1.Kylin

  1. SparkSQL+CarbonData
  2. Impala+Kudu 或Parquet

机器学习:

1.Spark MLib

  1. Flink MLib
  2. XGBoost

深度学习:

1.TensorFlow

  1. Caffe
  2. Keras

资源管理器:

1.Yarn

  1. Mesos
  2. Kubernetes+Docker

集群管理:

1.Cloudera

2.星环

  1. Hortonworks
  2. Ambari