天天看点

《Hadoop与大数据挖掘》一第1章

本节书摘来华章计算机《hadoop与大数据挖掘》一书中的第1章 ,张良均 樊 哲 位文超 刘名军 许国杰 周 龙 焦正升 著 更多章节内容可以访问云栖社区“华章计算机”公众号查看。

浅谈大数据

当你早上起床,拿起牙刷刷牙,你是否会想到从拿起牙刷到刷完牙的整个过程中有多少细胞参与其中?这些细胞在参与的过程中会结合周围环境(可能是宏观的天气、温度、气压等,可能是微观的分子、空气中的微生物等),由你的意识控制而产生不同的反映。如果我说结合这些所有的信息,可以预测你接下来的0.000 000 01秒的动作,那么,你肯定说,这我也可以预测呀。比如正常情况下,你脚抬起来走路,那么抬起来后,肯定是要落下去的,这算哪门子预测呢?那如果我说可以预测你接下来一个小时的动作呢?甚至一天,一个月,一年呢?其实这也可以勉强说是一个大数据案例了。

听起来有点夸张?

说个大家熟悉的大数据吧。相信很多人都买过股票(或者至少知道买股票这件事情),如果有人可以整合所有信息(包含基本的股票信息:股票涨跌;公司情况:如公司大小、业务等;政策情况:可能政府突然颁布了一个红头文件等),首先肯定这些信息可以被认为是“大数据”,其次对这些“大数据”进行分析建模,如果可以预测股票的涨跌,那么这就是一个实实在在的大数据案例了。

再说一个电影桥段:“赌神”一般都可以预测摇色子的点数或者说摇色子摇到的最大点数,那么在现实情况中,这个可能实现吗?试想这样一个场景:一个人不停地摇色子,然后把摇色子的声音以及最后的点数记录下来,不停地摇,不停地记录,那么就会形成一个巨大的数据集,从而可以使用这个巨大的数据集进行建模,即可以预测色子的点数了。你也可以将这个理解为一个大数据的应用。

现在,你是否已经有点懂“大数据”了?

继续阅读