hadoop框架结构学习详述

2018-09-25 23:50:00

hadoop框架结构学习详述

近年，随着互联网的发展特别是移动互联网的发展，数据的增长呈现出一种爆炸式的成长势头。单是谷歌的爬虫程序每天下载的网页超过1亿个（2000年数据，）数据的爆炸式增长直接推动了海量数据处理技术的发展。谷歌公司提出的大表、分布式文件系统和分布式计算的三大技术构架，解决了海量数据处理的问题。谷歌公司随即将设计思路开源，发表了具有划时代意义的三篇论文，很快根据谷歌设计思路的开源框架就出现了，就是如今非常火爆的hadoop、Maperduce和许多Nosql系统。这三大技术也是整个大数据技术的核心基础。

目前国内的hadoop商业发行版也是比较多，这些hadoop商业版大部分都是由国外发行的，纯国产的发行版不是很多，比如DKhadoop，可以说是目前国内自主做hadoop商业版比较好的了。下面就以大快搜索DKhadoop为例来给大家介绍一下hadoop框架结构！

图示：DKhadoop技术技术架构图

hadoop框架结构核心：

hadoop的框架结构最核心的设计就是：HDFS和MapReduce。HDFS为海量的数据提供了存储，MapReduce为海量的数据提供了计算。

大数据一体化开发框架：

大数据的应用开发过于偏向底层，设计技术面非常广泛，学习的难度自然要大的很多。对于新手入门更是难上加难。DKhadoop则是大快搜索将一系列技术框架在底层进行了重新封装。把大数据开发中的一些通用的，重复使用的基础代码、算法封装为类库，降低了大俗局的学习门槛，降低开发难度。

DKhadoop框架结构构成模块：

我们以DKhadoop发行版为例：

1、框架由：数据源与SQL引擎、数据采集（自定义爬虫）模块、数据处理模块、机器学习算法、自然语言处理模块、搜索引擎模块，六部分组成。

2、大快的大数据通用计算平台（DKH），已经集成相同版本号的开发框架的全部组件。如果在开源大数据框架上部署大快的开发框架，需要平台的组件支持如下：

（1）数据源与SQL引擎：DK.Hadoop、spark、hive、sqoop、flume、kafka

（2）数据采集：DK.hadoop

（3）数据处理模块：DK.Hadoop、spark、storm、hive

（4）机器学习和AI：DK.Hadoop、spark

（5）NLP模块：上传服务器端JAR包，直接支持

（6）搜索引擎模块：不独立发布

Dkhadoop是大快深度整合，重新编译后的HADOOP发行版，可单独发布。独立部署FreeRCH（大快大数据一体化开发框架）时，必需的组件。DK.HADOOP整合集成了NOSQL数据库，简化了文件系统与非关系数据库之间的编程；DK.HADOOP改进了集群同步系统，使得HADOOP的数据处理更加高效。

关于hadoop框架结构暂且简单介绍这些，感兴趣的朋友可以找一下大快搜索的DKhadoop试一下。

hadoop框架结构学习详述

继续阅读

Storm编译打包过程中遇到的一些问题及解决方法

关于SQL语言

SQL语言基础：常用的数据查询语句

MapReduce的几个企业级经典面试案例MapReduce的几个企业级经典面试案例

9.spark Core 进阶2--Cashe

大数据排错SparkSpark集群启动时候，JAVA_HOME is not sethadoop集群，某台服务器jps无任何输出IDEAkafkahadoopspark sqlfile permissionsIDEA本地测试 - OutOfMemoryError: GC overhead limit exceededhdfs负载均衡

浅谈企业活动中进行数据分析的重要性

ubuntu14.04下安装hbse1.0.1.1

User Defined Hadoop DataType

neo4j之cypher使用文档

Ambari介绍和架构原理

spark/scala关于【资源文件】加载方法概述外部文件加载方案测试资源文件打包入jar包中小结

【python】【数据处理】画多维数据分布图

NOSQL安全攻击

sqlServer根据经纬查距离

win10本地scala和spark安装安装scala安装spark