Hadoop，开发者纠结的十件事

开源数据处理平台hadoop在大数据时代的今天有着非常广泛的应用。著名的大象图标遍布各行各业，从医疗记录到银行交易，从车票预定到房屋租赁，乃至很多科学数据处理，都可以见到hadoop的身影。

1、平台尚未成熟

虽然用途广泛，但不得不承认的是，hadoop目前仍在开发阶段。很多数据结构都不全，比如hadoop一直不支持原生datatime数据类型，最近才在时间序列数据开发者的强烈建议下下引入此数据类型。其次，技术支持并不到位，无论是google还是stack overflow上寻找的答案，都不足以解决开发者遇到的问题。

2、数据模式模糊不清

hadoop目前对模式（schema）的描述并不清晰，很多开发者在撰写pig脚本的过程中，会花费超过50%的时间在调试对schema的支持上。

3、 pig和hive无法互通

hive和pig用起来完全是两个东西。熟悉sql的开发者可以在hive中使用类似的脚本，但是在pig中却不得不重新学习其语法。在pig中无法使用hive的udfs，也无法使用hcatalog访问pig的hive表。反过来，无法在hive中使用pig的udfs。这让开发者在两者切换使用的过程中颇为纠结，需要耗费精力重新撰写脚本来完成已有的工作。

4、 hdfs存储共享函数库

鉴于hadoop的复用机制，一旦开发者将pig脚本保存于hdfs，那么hadoop将自动认为所有的jar包的存储方式都应如此。通常情况下，这样的做法并无问题，但是有时候，当一个项目需要维护大量共享库的时候，这就变得非常复杂。而且，大部分时间jar包通常都在安装客户端的时候一并安装过，hadoop这种存储方式使得jar包多次存储。据悉，脚本存储的问题pig新版本已修正，但是共享函数库存储的问题却仍然存在。

5、报错信息不完整

这几乎是hadoop系列工具的通病，经常在出了问题的时候，返回一个“运行失败，无更多错误信息”这样的报错提示，使得开发者无法进行更进一步的错误调试。还有，hadoop经常会抛出一些无法找到指针的异常（npe），而这些问题则是由文件解析之类的操作造成，并不能属于npe范畴。另外，由于采用udfs，导致很多报错最终以udf执行错误的样子呈现给开发者，而它们可能仅仅是语法错误或者类型错误。

6、不兼容的安全机制

开发者经常会听到这样的说法：“已经有足够多的案例证明，想要保证hadoop的安全性，建议使用kerberos，ldap直白易用。”但是现状就是，hadoop平台并未对此有友好的集成：没有saml、没有oauth，也没有很好的安全验证机制（开发者只能时不时的无奈面对再一次出现的登录窗口）。更有意思的是，hadoop平台中很多组件都自己支持ldap，且彼此不考虑兼容性。

7、难以开发的ldap连接器

对开发者来讲，用java成功完成一个能用的ldap连接器，至少需要修改上百次代码。而反过来看看完成的代码，连接器的功能还不完善。实际上，开发者们能感觉出knox有点像一时冲动的产物。毕竟用apache配置mod_rewrite模块就能完成的事情，非要用java再写一遍，的确是让开发者头痛的事情。

8、难以扩展的hive表管理

如果开发者使用hive进行表管理的话，在hive执行了drop表命令后，会自动将表删除。但是如果这个表是外部的话，则不会自动删除。为什么hive不能将这两个表同样对待呢？此外，既然hive现在有向rdbms发展的趋势，为什么不增加update和delete？

9、不兼容的namenode

hadoop的很多组件，如oozie、knox等，都不遵循新的namenode ha。开发者可以做一个ha hadoop，前提是他完全不想使用其他组件。

10、出错的文档

此外，在hadoop平台的适用范围方面，它对实时数据访问支持并不好，也无法高效存储大量小文件，而且目前尚不支持多用户。

Hadoop，开发者纠结的十件事

继续阅读

27 Best Free Eclipse Plug-ins for Java Developer to be ProductiveCode Quality PluginsText Editor PluginsDependency ManagementVersion Control Integration PluginsFramework Development Continuous Integration Related PluginsOther Utility Plugins

Java String.format方法的简单使用

neo4j之cypher使用文档

Ambari介绍和架构原理

GitHub连夜封杀！这份阿里 10W 字内部 Java 字面试手册到底有多强？

spark/scala关于【资源文件】加载方法概述外部文件加载方案测试资源文件打包入jar包中小结

【python】【数据处理】画多维数据分布图

mybatis_入门程序Mybatis入门

AOP编程_Android优雅权限框架(1)概念基础，2021金三银四前言正文大纲正文

sqlServer根据经纬查距离

Effective Java 8:通用程序设计

OOM三种类型

工厂模式-三种类型

【递归】高效率求2的n次幂

win10本地scala和spark安装安装scala安装spark

scala (3) Function 和 Method