2013年7月11日星期四

BigData_005:《大数据时代》读后感之五:寻找相关关系,而不探求因果关系

作为地球上最智慧的生物,人类的天性之一就是:探索未知,探索未来。人类的文明与科技的进步也是在“为什么不”的疑问中一步步走到今天。
然后,作者却说,在大数据时代,知道“是什么”就够了,没必要知道“为什么”。
这与我们从小的教育完全相违背,要知道:
(1)苹果落到牛顿的肩上,是因为万有引力。
(2)亚当与夏娃偷吃了苹果,是因为爱情和性。
(3)被人咬了一口的苹果的Apple Logo,是为了纪念图灵。
世间万事万物,都是由因果组成的,当一件事情发生时,有谁不想知道事件背后的原因呢?

其实,看完本书,你会明白作者其实想表达的意思是,寻找事物之间的相关性要比因果性容易的多,如果相关性已经帮助我们解决了问题,那么因果问题可以放一放。
因为因果关系的证明需要耗费的资源相当大,还是留给科学家们去研究吧。

大数据之“寻找相关关系,而不探求因果关系”案例:

1. Amazon专业书评家与书评程序推荐书籍比赛,以专业书评家惨败而告终。
这是一个有趣的比赛,一方是一帮花重金请来的专业书评家,通过写书评推荐书籍;另一方是书评程序,看看谁推荐的书籍客户购买的多,结果专业书评家惨败,继而被解散。
以往的书评程序都是通过搜集并分析用户的信息来推荐书籍:比如购买了哪些书籍?哪些只是浏览了而没有购买?浏览了多久?哪些书是一起购买的。
这种方式只是显式地发掘用户购买图书的原因,其实用户购买某个图书的原因实在是太多了。
Amazon改变了这种传统思路:它分析的是对象是书,或者书和书之间的关联。这种“item-to-item”的协同过滤技术大获成功。
找出产品之间的关联性,而不是客户之间的不同,就能提高推荐的命中率:你推荐的就是客户想买的。
目前Amazon的1/3的销售额都来自于机器生成的个性化推荐。
至于客户为什么买,你不需要关注,因为每个人的心灵都是一片海洋。

这个例子再次地印证了行业专家与大数据的博弈结果:直觉的判断让位于精准的数据分析。

2. 沃尔玛:请把蛋挞和飓风产品放在一起
还记得沃尔玛那个著名的“啤酒+尿不湿”案例吗,每逢周五,啤酒和尿不湿的销量激增,
原来是因为男人为周末观看比赛,买啤酒的同时一次性采购下一周日用品,一边看比赛,一边看孩子,尿不湿当然是必不可少的。
这一切源于沃尔玛保存了历史交易记录,其中不仅包括每位顾客的购物清单,还包括购物篮中的商品,以及天气。
这次经过分析,他们发现飓风季节,手电筒和蛋挞的销量同时增加了。
因此,每当飓风来临时,沃尔玛会把蛋挞放到靠近飓风用品的地方。

沃尔玛的例子不仅找到了相关关系,还找到了因果关系,这当然更好。
这个道理同样可以运用到网店,比如发现最近一个时间段某个搜索的关键词激增,那么就可以多多的备此类货物。
知道“是什么”就够了,没必要知道“为什么”,这一观点同样适用于其它行业,而不只是电子商务。

3. FICO: 预测你明天会做什么?
FICO会判断一个人会不会遵从医嘱,按时吃药。搜集的数据都是一些非常稀松平常的:比如在某地的居住时间,婚姻状况,多久换一份工作,是否有车有房。

4. Eperian: 根据人的信用卡消费记录判断个人的收入情况
这种分析的成本仅需1美元,而通过其它手段则需要10美元。
 
5. Aviva: 预测健康隐患
搜集的数据也是一些非常稀松平常的:个人爱好,常浏览的网站,常看的节目,收入等等。

6. Target:零售商通过客户购物方式预测是否怀孕?
Target会找出与怀孕相关的20多种关联物品,甚至比父亲先知道女儿已经怀孕的事实。
那么零售商为什么要预测这个呢?
因为夫妻有孩子前后,会产生很大的变化,会光顾以前不去的商店,建立品牌的忠诚度,因此抢先一步争取到这些未来的父母,也就赢得了持续的商机。

7. UPS:如何降低全美6万辆汽车的保养费用
UPS决定在重要的汽车零部件上安装传感器,虽然在每辆车上安装传感器再加上收集和分析数据的费用每年会增加额外的一笔开支,但是比出现故障而换车的情况损失小得多,并且只更换必须要更换的零件;综合下来,每年能够节省好几百万美元。
 
8. 监测早产儿的细微的身体变化,能够在明显出现感染状况前24小时发出感染信号。
注意,这里不是根据医学的因果关系,而是完全靠大数据给出的预测,系统并不知道为什么会感染!
恰恰相反,大数据预测表明,早产儿的稳定不但不是病情好转的的标志,而是暴风雨前的宁静。

9. 幸福的非线性关系:收入水平和幸福感成正比吗?
实际上二者的关系是更复杂的动态关系:比如1万元以下的人增加收入后会感到很幸福,1万元以上的人则感受不明显。
这个事实有助于政府的策略的制定:提高低收入的人群的收入更有利于增加全民的幸福感。
10. 橙色的二手车的发生质量问题的可能性是其它车的一半
没有人知道为什么,如果想要知道为什么就需要做大量的实验来佐证。
消费者不需要知道为什么,买橙色的二手车就好了。  
11. 预测曼哈顿51000个沙井盖哪个可能会爆炸?
根据1880年以来的数据,建立了涵盖106种可能导致爆炸的模型,测试2009年会出现问题的井盖,测试结果与实际情况高度吻合。
同样,在这个例子中,我们不知道原因,但是只要结果就好了,有些甚至是看来电缆没有任何问题的井盖却发生了爆炸。
这个例子是相当典型的大数据的例子,满足了大数据的三个思维要素:
(1)样本=全部:必须分析全部的51000的井盖,万一你漏掉的那个井盖发生了爆炸,后果不堪设想。
(2)允许混杂的数据:从1880年以来的数据,很难没有错误。
(3)寻找相关关系,而不探求因果关系。

好,现在我们来思考一个有点哲学高度的问题:如果大数据能够告诉我们最终的结果,我们是坚持我们的信仰,还是臣服于数据告诉我们的真相。
如果是后者,那人类的存在意义究竟在哪里呢?
难以想象,如果我们的一切行为都遵循数据给我们的指示:出生,恋爱,工作,结婚......那些我们赖以维系的精神家园将会崩塌,因为有一双看不见的眼睛在我们身后洞察了一切。
   
那么世间万事万物,到底由因果组成的,还是由大数据决定的呢?
本书作者提出了一个反驳:如果万事万物都是由因果构成的,包括人的每个想法,每个决定、每个行为都是因为其它的“果”而产生的“因”,这些“因”又产生其它的“果”。
那么就不存在人的自由意志一说了,因为所有的生命轨迹都是由因果控制了。
   
作者还说,人们习惯性用因果关系来解释周围的世界,其实因果关系被完全证实的可能性几乎没有,只能说两者之间很可能存在因果关系。
因为证明因果关系所耗费的资源相当大,每一个反例的出现都要加以说明,过滤;而证明相关关系的就相对容易许多,因为数据本身会说话。

孰是孰非,我想还是留给每个人自己去思考吧。

不管则样,这就是大数据时代的特点:海量数据 + 好的分析工具 = 找出原本看起来不相关的几个事物之间的关联性。
前文说过,大数据的最大的用途就是预测,这种相关关系分析方法能够更准确、更快地预测,虽然它不能告诉你背后的原因。
但是你一定要知道原因吗,爱一个人需要理由吗?需要吗?不需要吗?......
 
参考文献:
1. http://club.1688.com/threadview/28867756.html  

没有评论: