2013年7月10日星期三

BigData_001:《大数据时代》读后感之一:让数据“发声”

谷歌每天接收30亿条搜索指令,YouTub每秒钟有一段视频在上传,Twitter每天发布4亿条微博,你知道这意味着什么吗?
这意味着,我们已经生活在一个大数据时代,不管你喜欢不喜欢,它就在那里默不作声地看着周遭发生的一切。

量变终会导致质变,当数据大到你无法想象的程度时,数据将不再沉默,它会发出自己的声音。
在大数据面前,行业专家们将黯然失色,因为他们往往依赖过去的经验给出一些想当然的答案。
对此,大数据会以铁的事实给专家们一记响亮的耳光:不,事实不是你想的那样。

大数据案例:

1. 2009年,谷歌成功了预测了甲型H1N1流感的爆发
谷歌分析了2003年与2008年之间的5000万搜索词条,建立了4.5亿的模型,最终发现有45条词条的数学模型与美国疾控中心统计的流感人数基本一致,匹配度高达97%,而且判断非常迅速及时,只需要1-2天。
对模型感兴趣的人可以参考文献1。
不需要卫生部门的层层申报,仅仅通过搜索关键字,就能预测流感的爆发,这听起来是不是有些匪夷所思?

2. Farecast:机票预测系统助你买到便宜的机票
航空公司的各个时间段的机票价格各不相同,如何才能购买到便宜的机票呢?
你也许会主观地认为,机票预订的越早,机票就会越便宜。但事实并非如此,因为航空公司制定机票价格的因素有很多,比如:旅游季节,航线推广,等等。
机票价格数据来自一个旅游网站,为了提高预测的准确性,然后联系了一家行业机票预订数据库,目前准确度达到75%,平均节省50美元。
如果机票价格可以预测,那么酒店价格,同类商品价格,应该也可以预测,只要产品差异性不大,并且存在大幅价格差和大量可运用的历史数据。
   
3. Decide.com:预测电子商务网站的产品价格
你也许会认为当新产品发布时,旧产品的价格会下降,但Decide.com分析了400万产品的超过250亿条价格信息后,发现旧产品可能会经历一个短暂的价格上浮。

4. Inrix:搜集交通状况数据,成功预测2011年美国经济复苏放缓
分析发现,上下班高峰时期的交通状况变好了,说明失业率增加了,经济状况变差了。
虽然这一结论遭到政客们的强烈否定,但后来一系列经济数据表明情况就是如此。

5. 天文学:宇宙的起源
大多数科学家已经认可这样一个事实,宇宙的起源来自于一场大爆炸。
今天,最先进的天文望远镜在几周内收集到的数据,已经比天文史上总共收集到的数据还要多。
大数据一词,即来源于此。

如今,我们同样经历着另外一场大爆炸:信息大爆炸。
我们必须重新审视那些本来冰冷的数据,虽然它们属于过去,却能预知未来。
没错,大数据的最大用途就是预测,它能够预测哪些事物呢?
(1)推荐书籍
(2)网站排序
(3)猜喜好
(4)猜朋友
(5)疾病诊断与治疗
(6)识别犯罪分子
(7)预测股市
(8)兵棋推演
(9)预测电影票房
(10)预测歌曲是否会流行
(11)预测是否通货膨胀
(12)分析迈克尔*杰克逊的录像,将其"复活",举办虚拟演唱会。

这里的每一项都够写一篇文章的,感兴趣的人自己展开学习吧。
你也许觉得(7)有些无法预测,因为牛顿曾经说过:“我能计算出天体运行的轨迹,却难以预料到人们的疯狂。”
我要提醒的有两点:(1)牛顿没有生活在大数据时代。(2)牛顿说的是人们的疯狂。
数据不会发疯,只会以事实为依据,毕竟预测只是提供概率较高的可能性,没人能保证没有意外情况。

其实,“数据”一词在拉丁文语的原意是“已知”,莫非先知们早就暗示了我们这个秘密,而我们一直没有理会?

参考文献:
1. http://www.natureasia.com/zh-cn/nature/highlights/22032

没有评论: