天天看点

超越Hadoop的大数据分析之第一章介绍:为什么超越Hadoop Map-Reduce

译者注:本文是本书第一章的开头,第一章其它部分由其他人翻译。

你可能是一个视频服务提供商,而你想基于网络环境动态的选择合适的内容分发网络来优化终端用户的体验。或者你是一个政府监管机构,需要为互联网页进行色情或非色情的分类以便过滤色情页面,同时还要做到高吞吐量以及实时性。或者你是一个通讯/移动服务提供商——要么你在这样的公司工作——而你担心客户流失(客户流失意味着,老用户离开而选择竞争对手,或者新用户加入竞争对手)。你一定非常想知道前一天有哪些客户在tweeter上抱怨你的服务。或者你是个零食店主,而你非常想对你的客户做购买预测,这样你就可以为你商品做更多有针对性的促销活动,并期望销售额由此带来的增长。或者你是一家医疗保险公司,当务之急是计算某位客户明年住院的概率,以便适当的修改的保费。或者你是一家金融产品公司的cto,而公司希望拥有实时交易/预测算法,帮助确认损益表底线。或者你为一家电子制造公司工作,而你想在试运行期间预测故障、查明故障根源,以便在后来的实际运行中有效。这要归功于大数据分析创造的新世界。

分析已经存在很久了——北卡罗莱纳州立大学在1960年代晚期有一个用于农业研究的项目叫做“统计分析系统(sas)”,后来该项目独立出来成立了sas公司。术语analysis与analytics(译者注:本人不知道如何翻译这两个词)之间的惟一区别在于analytics通过分析数据得到可行性的见解。术语商业智能(bi)在商业环境的数据分析中也经常提到,可能最早见于peter luhn的一篇论文(luhn 1958)。许多bi应用运行于数据仓库之上,直到最近也是如此。相比之下,从术语“分析”到“大数据”这个术语的深化是极其晚近的事了。

继续阅读