2013年7月11日星期四

BigData_003:《大数据时代》读后感之三:允许混杂,才能得到精确

现实世界中只有5%的数据是结构化的,这些数据可以使用传统的数据库存储和处理。
还有95%的数据是非结构化的,而且鱼龙混杂,传统的数据库既无法存储,更无法处理。
在大数据时代,数据的混杂性是不可避免的,甚至有错误的数据混杂进来,这同样是不可避免的。
但有一点是可以肯定的:总的预测结果不会因为这些混乱的数据而产生偏差,原因就在于数据量足够大。
作者原来的说法是“要混杂,不要精确”,不知道是不是翻译的问题,我听着总有些别扭。
反复阅读后,我自己总结了下面这句话,我觉得更加贴近作者实际要表达的意思。
“允许混杂,才能得到精确。”听着有些像老子的口吻,是不是,所谓“大音希声,大象无形”。

大数据之“允许混杂,才能得到精确”案例:

1. 葡萄园里的温度计
在每棵葡萄树下摆放一个温度计,当然比整个葡萄园只摆放一个温度计得到的数据更准确。
当温度计的数量足够多,读数的频率足够高,某个温度计某次读数的失准不会影响整个葡萄园的温度测量结果。

2. 国际象棋的人机大战
国际象棋棋迷不会忘记,1997年,如日中天的世界冠军卡斯帕罗夫输给“更深的蓝”的场景。
这场比赛之后,IBM决定立即拆解“更深的蓝”,不再给卡斯帕罗夫“复仇”的机会,为此,已经退役的卡斯帕罗夫至今耿耿于怀。
“有几步棋不像是电脑下出来的。”卡斯帕罗夫输掉比赛后如是说。
如果电脑能够下出不像是电脑下出来的棋,是不是说明电脑已经学会了“思考”?
这是人类的幸与不幸,这个话题太大太深,这里就不展开了。
实际上过去几十年以来,象棋的算法相对固定,改变很小,象棋程序的越来越强大靠的是添加了越来越多的数据。

3. 微软Word的语法检查程序
说出来也许会吓你一跳,微软的拼写检查功能,每年需要花费数百万美元来维护,因为需要不断编译和更新字典,这个工作量相当大。
为此, 微软研究院的人员一直在想方设法改进该功能,但他们不确认是改进现有算法,还是研发新的方法。
于是,他们为4种不同的算法添加了更多的数据,结果发现,随着数据的增多,最高到10亿,4种算法的表现都提高了。
“我们得重新衡量一下更多的人力物力是应该用在算法发展上还是语料库的发展上”,研发人员如是说。

4. 谷歌的翻译系统
谷歌的翻译质量虽然不尽如人意,但还算是机器翻译里比较好的,这倒不是因为它使用了多么好的算法,而是它拥有别人难以企及的数据。
虽然这些数据质量参差不齐,甚至有错误,完全无法跟英语专业词典相比,但是超过字典好几百万倍的体量,使它的优势完全压倒了缺点。

案例2、3、4都直指一个问题:是算法重要还是数据重要?
比较科学的回答是这样的:大数据基础上的简单算法比小数据基础上的复杂算法更加有效。

5. 监控炼油厂石油管道的压力
通过密布在管道线上的无线感应器,监测管道的压力,发现某些原油对管道腐蚀性很强。
虽然严酷的环境可能让某些感应器失效,但在大数据量的情况下,这些错误不会影响最终的结果。

6. 麻省理工:通货紧缩预测软件
每天收集互联网上50万种商品的价格,然后分析,看看是否通货膨胀,而不用雇佣大量的人力以各种方式采集数据。
准确地预测了2008年9月雷曼兄弟破产之后的通货紧缩的趋势。

既然混杂是不可避免的,就让我们拥抱它吧,因为我们就生活在一个“混杂”的时代。
比如使用Tag标签来对资源进行分类,虽然每个人对事物的认识导致标签的内容不一致,但是却提供了更多更丰富的标签,这其实是对同一事物每个人的侧重点不一样,当合并多个标签关键字进行搜索时,反而能够更精准的找到你要的资源。

更进一步,作者认为“混杂”有可能是新的标准,因为现实世界中大量存在的是各种各样的,参差不齐的海量数据,是时候考虑提高数据的宽容度了,因为现实的数据很少完全符合预先设定的数据类型,这将催生新的数据库设计,新的数据库必须能够处理五花八门的数据。

在这里,我个人认为,传统的数据库还是能够处理5%的数据,至于其它95%的数据,是否会催生新的数据库设计,我持保留意见。就让数据库处理结构化的数据,这是它的强项;其它的非结构化的海量数据就交给Hadoop吧。

没有评论: