2013年7月11日星期四

BigData_002:《大数据时代》读后感之二:样本=全部

如果能够采集所有的数据,并且有足够计算能力处理这些数据,那么为什么还要“采样”呢?
这里所谓的“全部”,是指获取与某事物相关的所有数据,包括那些看来似乎毫不相关的数据。

采样有它先天的局限性,比如样本的选择,为什么选择这些而不是那些?
想想我们在大学里做的电子物理实验,我们“抛弃”了那些看起来不是让我们很满意的数据,而让最终的实验结果看起来很完美。
但那些被“抛弃”的数据,就真的没有反应实验的某些真实的异常情况吗?
采样还有一个问题,如果是采样分析,怎样保证样本的随机性?
现代统计学已经证明:采样分析的精确性随着采样随机性的增加而大幅提高,与样本数量的增加关系不大。即随机性比样本重要。

大数据之“样本=全部”案例:

1. 23andme:乔布斯治疗癌症
乔布斯把自己的DNA序列全部排列出来,要知道人体有30亿对碱基对啊,然后根据其特定基因用药。这种方式没有能够挽救他的生命,却也延长了好几年。
 
2. Xoom:跨境汇款的异常交易报警
分析每一笔交易的相关数据,单看每一笔都没有什么问题,但是分析了大量交易后,就会发现这可能是诈骗集团在试图诈骗。

3. 如何认定相扑比赛中选手是否消极比赛
分析11年中超过64000场比赛的记录,从中寻找异常的情况。
结果显示,消极比赛通常出现在不是那么重要的比赛,比如联赛的后几场不被人关注的比赛。

4. Lytro相机:捕捉所有的光,即光场相机。
这是一个非常了不起的想法,捕捉现场所有的光,具体生成什么照片,想要什么效果,拍摄之后再做决定。

5. 社会关系分析
分析全美1/5人口的4个月内的移动通信记录,发现一个有趣的现象:
一个在关系网内有着众多好友的人的重要性竟然不如一个只是与很多关系网外的人有联系的人。
在结果得出之前,你能想象的到这个结果吗?
          

没有评论: