浅谈大数据平台架构离线计算:离线数据同步:实时计算:实时数据同步:多维分析（即席查询）：机器学习：深度学习：资源管理器：集群管理：

2020-04-14 23:50:00

什么是大数据平台

有三个疑问：

1.使用Cloudera或Hortonworks之类的Hadoop发行版本公司的提供的Hadoop套件，配置些参数，找几台服务器部署起来就算是一套大数据平台吗?

2.数据开发人员平时的工作是不是写些MR或者SQL任务，使用原生的命令行提交任务就可以了吗?

3.平台开发人员日常的工作是不是处理下集群的故障，给业务方扫盲，纠正各种框架组件使用姿势呢?

大数据平台个人理解：

是基于开源或自研组件的基础上创造更多的附件价值，提供给用户一个

完整的大数据业务解决方案，而不仅仅是做一个集群的维护者

大数据平台的价值

1.数据开发角度

一.降低数据开发门槛

二.提升数据开发人员效率

2.运维角度

一.降低运维门槛

二.提升运维效率

3.公司角度

一.数据统一管理（OneData理念），降低成本

大数据平台架构选型

离线计算:

1.Spark+SparkSQL

2.MR（Hadoop）+HiveSQL

离线数据同步:

1.DataX（Alibaba，开源支持单机版本）

FlinkX（Dtstack，开源支持单机，standalone，yarn 模式）
Sqoop（只能做Hadoop和关系型数据库之间的数据同步）
Kettle

实时计算:

1.Flink

2.SparkStreaming

Storm
JStorm(Alibaba)
StreamCQL(华为)

实时数据同步:

1.Flume

Logstash（Elastic）
JLogstash（Dtstack）

多维分析（即席查询）：

1.Kylin

SparkSQL+CarbonData
Impala+Kudu 或Parquet

机器学习：

1.Spark MLib

Flink MLib
XGBoost

深度学习：

1.TensorFlow

Caffe
Keras

资源管理器：

1.Yarn

Mesos
Kubernetes+Docker

集群管理：

1.Cloudera

2.星环

Hortonworks
Ambari

浅谈大数据平台架构离线计算:离线数据同步:实时计算:实时数据同步:多维分析（即席查询）：机器学习：深度学习：资源管理器：集群管理：

离线计算:

离线数据同步:

实时计算:

实时数据同步:

多维分析（即席查询）：

机器学习：

深度学习：

资源管理器：

集群管理：

继续阅读

SQL语言基础：常用的数据查询语句

MapReduce的几个企业级经典面试案例MapReduce的几个企业级经典面试案例

9.spark Core 进阶2--Cashe

浅谈企业活动中进行数据分析的重要性

Shell编程——sort排序、uniq忽略重复、tr替换压缩删除、cut指定删除字段、正则表达式元字符sort 命令uniq 命令tr 命令cut 命令正则表达式

ubuntu14.04下安装hbse1.0.1.1

Linxu常用命令技巧汇总

httpd服务的部署、启动、配置和简单优化一、部署二、启动三、配置文件

《Linux命令行与Shell脚本编程大全第2版.布卢姆》pdf

User Defined Hadoop DataType

nginx 安装错误信息解决

neo4j之cypher使用文档

Ambari介绍和架构原理

NOSQL安全攻击

sqlServer根据经纬查距离

win10本地scala和spark安装安装scala安装spark