天天看点

Hadoop,开发者纠结的十件事

开源数据处理平台hadoop在大数据时代的今天有着非常广泛的应用。著名的大象图标遍布各行各业,从医疗记录到银行交易,从车票预定到房屋租赁,乃至很多科学数据处理,都可以见到hadoop的身影。

1、 平台尚未成熟

虽然用途广泛,但不得不承认的是,hadoop目前仍在开发阶段。很多数据结构都不全,比如hadoop一直不支持原生datatime数据类型,最近才在时间序列数据开发者的强烈建议下下引入此数据类型。其次,技术支持并不到位,无论是google还是stack overflow上寻找的答案,都不足以解决开发者遇到的问题。

2、 数据模式模糊不清

hadoop目前对模式(schema)的描述并不清晰,很多开发者在撰写pig脚本的过程中,会花费超过50%的时间在调试对schema的支持上。

3、 pig和hive无法互通

hive和pig用起来完全是两个东西。熟悉sql的开发者可以在hive中使用类似的脚本,但是在pig中却不得不重新学习其语法。在pig中无法使用hive的udfs,也无法使用hcatalog访问pig的hive表。反过来,无法在hive中使用pig的udfs。这让开发者在两者切换使用的过程中颇为纠结,需要耗费精力重新撰写脚本来完成已有的工作。

4、 hdfs存储共享函数库

鉴于hadoop的复用机制,一旦开发者将pig脚本保存于hdfs,那么hadoop将自动认为所有的jar包的存储方式都应如此。通常情况下,这样的做法并无问题,但是有时候,当一个项目需要维护大量共享库的时候,这就变得非常复杂。而且,大部分时间jar包通常都在安装客户端的时候一并安装过,hadoop这种存储方式使得jar包多次存储。据悉,脚本存储的问题pig新版本已修正,但是共享函数库存储的问题却仍然存在。

5、 报错信息不完整

这几乎是hadoop系列工具的通病,经常在出了问题的时候,返回一个“运行失败,无更多错误信息”这样的报错提示,使得开发者无法进行更进一步的错误调试。还有,hadoop经常会抛出一些无法找到指针的异常(npe),而这些问题则是由文件解析之类的操作造成,并不能属于npe范畴。另外,由于采用udfs,导致很多报错最终以udf执行错误的样子呈现给开发者,而它们可能仅仅是语法错误或者类型错误。

6、 不兼容的安全机制

开发者经常会听到这样的说法:“已经有足够多的案例证明,想要保证hadoop的安全性,建议使用kerberos,ldap直白易用。”但是现状就是,hadoop平台并未对此有友好的集成:没有saml、没有oauth,也没有很好的安全验证机制(开发者只能时不时的无奈面对再一次出现的登录窗口)。更有意思的是,hadoop平台中很多组件都自己支持ldap,且彼此不考虑兼容性。

7、 难以开发的ldap连接器

对开发者来讲,用java成功完成一个能用的ldap连接器,至少需要修改上百次代码。而反过来看看完成的代码,连接器的功能还不完善。实际上,开发者们能感觉出knox有点像一时冲动的产物。毕竟用apache配置mod_rewrite模块就能完成的事情,非要用java再写一遍,的确是让开发者头痛的事情。

8、 难以扩展的hive表管理

如果开发者使用hive进行表管理的话,在hive执行了drop表命令后,会自动将表删除。但是如果这个表是外部的话,则不会自动删除。为什么hive不能将这两个表同样对待呢?此外,既然hive现在有向rdbms发展的趋势,为什么不增加update和delete?

9、 不兼容的namenode

hadoop的很多组件,如oozie、knox等,都不遵循新的namenode ha。开发者可以做一个ha hadoop,前提是他完全不想使用其他组件。

10、 出错的文档

此外,在hadoop平台的适用范围方面,它对实时数据访问支持并不好,也无法高效存储大量小文件,而且目前尚不支持多用户。