2013年7月16日星期二

BigData_008:《大数据时代》读后感之八:数据的价值是其所有可能用途的总和

一切皆可“数据化”》告诉我们数据可以从哪里获得,解决了大数据来源的问题。
ReCaptcha 珍惜和利用每个人的10秒钟》则给我们这样一个启示:原来那些看起来即用即丢的废弃数据,只要开动脑筋,也是可以加以利用的。
数据不同于其它不可再生资源,比如:水,煤等,数据可以反复利用,只要你有好的idea,就可以发掘到前人没有发现的数据宝藏。
 
1. 数据再利用案例
(1)IBM 电动汽车的动力供应优化预测
根据电动汽车的电池电量、汽车的位置,时间以及充电插槽数量,来决定充电站的位置以及对电力系统的影响。
在一个城市中,如何最高效地分配加油站,充电站,表面看这是一个基础设施问题,实际上这是一个信息问题。

(2)移动基站的选址
根据手机在何时何地连接哪个基站的信息,以及信号的强度,决定是否在某地添加和升级基础设施。
     
(3)移动运营商根据所掌握的用户位置信息,判断用户的密集程度,然后根据这个信息出售该地区的分时广告牌的价格。
     
(4)电子商务根据所掌握的销售数据信息,判断产品的关联程度。
   
(5)物流公司根据所掌握的产品的出货信息,判断哪些地区对哪些产品更感兴趣。
   
2. 数据重组案例      
(1)丹麦癌症协会:结合1990-2007年间手机用户和癌症患者的信息,研究手机是否会增加致癌率。

(2)Zillow.com 房产网:除了显示房产的信息和价格,还把附近社区的交易和物业信息也聚合到一起,用来预测每套住宅的价格。

(3)FlyOnTime.us:根据美国国家海洋局和大气管理局以及国家气象服务的实时数据,结合航班数据,预测航班时间。
结果表明,航班因大雾延迟的时间是因雪延迟的两倍,这与人们的直观感受完全不同。
     
3. 数据扩展案例      
(1)监控摄像头不仅用来监控小偷,还可以用来跟踪客户流,以及他们停留的位置。
据此,店家可以设计店面的最佳布局,以及判断营销活动的有效性。
转变观念,监控摄像头就可以从一项纯粹的成本支出,变成一项可增加收入的投资。

(2)谷歌街景车
     
4. 数据折旧案例
数据也会“折旧”,这里“折旧”的意思是随着时间的推移,数据将失去一部分用途。
很难想象一个用户会对与10年前购买的相类似的书籍还感兴趣。
(1)亚马逊建立了一套复杂的模型分离有用的和无用的数据
   
5. 数据“废气”案例
人为产生的错误的数据,是不是没有用的数据“废气”?
这些在以往通常被认为是没有用的数据,如果使用得当,也可以发挥它的作用,比如 ReCaptcha 就是一个典型的数据“废气”案例。
让我们学会“从错误的事实中寻找真理”,因为“从疯子的嘴里,往往会泄露天堂的秘密。”,数据尚且如此,人生何尝不是呢。

(1)使用语音识别系统处理客户投诉
即使结果不准确,也能帮助我们了解事情的原委,更进一步,它可以帮助我们修正系统的识别能力。

(2)谷歌搜索:你要找的是不是......
当我们在使用谷歌搜索东西时,如果关键词拼写错了,它会提示:你要找的是不是......
当然,有时谷歌也许误解了我们的意思,但是不要紧,通过用户的点击可以告诉系统正确的拼写,用户帮助系统提高了学习能力。
谷歌已经把这项技术延伸到搜素的自动完成功能、Gmail、谷歌文档,以及翻译系统。

(3)谷歌搜索:如果你找的条目比较靠后......
谷歌搜集并分析用户的点击条目,改善搜索结果的相关性,把他们想要看的网页排名尽量靠前。
当用户指出搜索结果误解了他们的意思时,实际上是有效地“训练”了这个系统,让它变得更好。
显然,这与国内一家知名的搜索公司的理念完全不同,因为谷歌当Google改名“谷歌中国”进入中国时,是秉持这样的信念的:
“我们把每个网站当成一个网民,所有搜索结果的排名完全由这些选民的相互‘投票’公正决定。因为我们相信,信息面前,人人平等。”
一个是按照用户的搜索词尽可能地提供用户满意的搜索结果,一个是罔顾用户的搜索词强行给你一个竞价排名链接。

(4)垃圾邮件过滤技术

(5)社交网站记录用户的动作,然后广播给他的好友。
     
(6)电子书记录用户阅读信息
记录用户阅读一页所花的时间,略读还是细读,还是放弃阅读,是否划线强调,是否在空白处做了笔记,最终得出读者好恶和阅读习惯。
这些信息可以卖给出版社,告诉他们读者对哪些书籍的哪些段落感兴趣。
 
(7)在线教育网站,记录学生学习信息,有助于改善教学方式。
记录学生浏览的教学视频,学习论坛中浏览率较高的帖子,作业中易错的题目。

BigData_007:《大数据时代》读后感之七:ReCaptcha 珍惜和利用每个人的10秒钟

你每天要登录哪些系统,要输入多少次验证码?平均花多少时间?
据统计,平均每个人输一次验证码的时间大概需要10秒钟。
也许你从未想过,也许你从未在意,毕竟只是区区的10秒钟,但谁的时间都不该被任意挥霍在没有意义的事情上,不是吗? 哪怕只有10秒钟。
要知道,全球每天有数亿次的验证码输入,按4亿次计算,乘以10秒,超过1百万小时。
1百万小时就这样被白白浪费掉了。

这个事情让我很感慨,想起了我当研发人员时的一件小事:
每周研发经理都会把这周的安排打印出来发到每个人的手上,精确到每个小时。
按说,这样的安排已经足够细致了:责任和任务都非常清楚。
但是,后来来了一个新的项目经理,一定要大家每天提交一个工作报告,把所做的事填再写一遍,精确到每个小时。
这让大家很不爽,于是我跟研发经理说,这个实在没有必要,大家都知道每天在做什么,关键这个东西写完了没有人去看的,实在没有意义。
研发经理有些为难,看得出他不想跟项目经理发生不快,他反问我:你每天花2-3分钟填写一下有多大难度?
我没有退让,说道:现在公司有100多人,每个人每天花2-3分钟写这些没有意义的东东,相当于公司的时间财产每天浪费了5-6个小时。长此以往,最终损失的是公司。
研发经理听了之后,一言不发,于是每天大家继续填写这个报告。
三个月之后,这个daily report 无疾而终。

有人希望能够利用输入验证码的时间做些有意义的事,这真是一个对生活认真负责到极点的人才会去想的问题,这个人就是:路易斯*冯*安。
他的验证码项目名称是:ReCaptcha,Completely Automated Public Turing Test to Tell Computers and Humans Apart,全自动区分计算机和人类的图灵测试。

其原理很简单:每次提供两个验证码,让用户识别并输入,其中一个验证码是机器产生的,另一个验证码是从图书中扫描的文本,用来帮助提高图书数字化的识别能力。
你并不知道哪个验证码是机器提供的或是从图书中扫描的,因此你必须全部输入正确才可以。

你也许会好奇,系统怎么知道我针对从图书中扫描的文本输入的验证码是正确的呢?
答案也很简单:系统其实不知道,系统根本不做这个验证,系统只做记录,当有5个以上的人对同一个扫描文本的验证码输入是一样的时候,系统就记录这个文本作为该扫描文本的最终答案。

如果你的项目中需要验证码,请考虑使用ReCaptcha吧,在每个人输入验证码的时候还可以帮助提高图书扫描文本识别能力。

怎么样,ReCaptcha 珍惜和利用你的10秒钟,你还有什么理由浪费自己的1小时呢?
Seize The Day, Seize The Hour!

参看文献:
1. http://googlewebmaster-cn.blogspot.com/2010/02/recaptcha.html
2. http://googlewebmastercentral.blogspot.com/2010/01/protect-your-site-from-spammers-with.html
3. http://rikugun.iteye.com/blog/438924

2013年7月12日星期五

WLS_084: WebLogic Server 12.1.2 发布

美国时间7月11日,甲骨文宣布WebLogic Server 12.1.2发布,与WebLogic Server12.1.2一同发布的还有Coherence 12.1.2。二者构成甲骨文云应用的基础平台。

使用甲骨文云应用的基础平台和开发工具(JDeveoper12.1.2.0),可以帮助用户开发下一代应用,包括手机应用,运行企业关键任务,简化应用管理和快速部署。

1. Oracle WebLogic Server 12.1.2 新特性
(1)利用动态集群实现云弹性和有效的资源管理与利用,简化JMS的管理。
(2)与Oracle Database 12c集成,支持可插拔数据库访问,提高数据的持续高可用性。
(3)支持使用Maven管理应用的生命周期,支持使用HTML5,Java,WebSockets开发富企业的跨平台应用,包括移动应用。
(4)支持使用声明式的JSON或XML,通过Oracle Toplink提供的REST服务访问企业数据源。

2. Oracle Coherence 12.1.2 新特性
(1)支持移动应用和云。
(2)通过Coherence,GoldenGate,HotCache实时自动更新应用数据,利用WebLogic Management Framework with Managed Coherence Servers提高集群的生命周期管理。
(3)使用Coherence Live Events增强用户体验,简化事件处理流程,利用动态代理线程池自适应用户峰值需求。
(4)通过配置高可用参数,在数据一致性和应用性能之间找到最佳平衡点,使用site-safe和 rack-safe特性提供多数据中心的解决方案。

参考文献:
1. https://blogs.oracle.com/WebLogicServer/entry/oracle_weblogic_server_12_1
2. http://www.oracle.com/us/corporate/press/1970426

2013年7月11日星期四

BigData_006:《大数据时代》读后感之六:一切皆可“数据化”

数据来自哪里,怎样搜集,这是一个问题。
作者在这一章既介绍了那些很容易想到的数据集,也向我们展示了一些你从未想过的收集数据的方法。
总之,用一句概括:一切皆可“数据化”。

数据搜集案例:

1. 莫里根据老的航海日志修订了一份新的航海图

2. 日本越水重臣教授根据人体对座位的压力识别乘坐者的身份,准确率高达98%。
把一个人的坐姿转化成数据,这真是一个很创新的想法,创新的想法必然会产生独特的价值。
通过这套系统就可以识别乘坐者的身份,然后可以衍生很多服务。
比如:
(1)识别驾驶者是否是车主,如果不是发出警告或自动熄火。
(2)比较事故发生前后的坐姿,看看坐姿和行驶安全之间的关系。
(3)搜集驾驶者疲劳时坐姿数据,当发现驾驶者疲劳时,发出警告。
 我觉得还要加上一些其它考虑,比如车主胖了或瘦了,需要重新校准数据,呵呵。

3. 由图书衍生出来的信息服务

3.1 谷歌的数字图书馆:http://books.google.com/ngrams 
谷歌希望能够每个人都能分享人类文明以来的所有知识 ,这真是一个有气魄的想法。
为此谷歌和各大图书馆开展合作,扫描馆藏书籍。

3.2 亚马逊的Kindle图书馆:http://www.amazon.cn/
与谷歌的数字图书馆不同,亚马逊的Kindle图书馆侧重的是新书,很多新书都伴随发行了Kindle电子图书版本。

顺便说一句,如果谷歌和亚马逊的数字图书馆建成的话,那些抄袭者将无处遁形。

4. 由GPS衍生出来的信息服务

4.1 安装在汽车上的GPS
汽车安装了GPS后,可以记录时间、地点和行驶路线图等信息。

4.1.1 汽车保险公司根据GPS记录的信息制定个性化的保险服务
通过分析GPS记录的数据,汽车保险公司可以制定个性化的保险服务,而不是仅仅依靠驾驶员的年龄、性别和履历等等。

4.1.2 过路过桥费的收取
可以根据GPS记录的行驶路线图,让实际使用这些道路的人承担相应的费用。

4.1.3 制定最佳行车路径
UPS利用GPS记录的数据,制定了最佳行车路径(尽量少的左转弯)。
在2011年,少跑了4828万公里,节省了300万加仑的汽油,以及减少了3万吨的二氧化碳排放量。

4.1.4.微软亚洲研究院分析北京市出租车2年的GPS数据,提供不同时段的最佳出行路线

4.2 安装在智能手机上的GPS
安装在手机上GPS,可以获取用户位置信息,由此产生很多Location Based Service(LBS)。

4.2.1 分析高速公路上的手机的数量和移动的速度来预测交通状况

4.2.2 分析城市夜生活最繁荣的地方

4.2.3 分析游行队伍聚集了多少人

4.2.4 Foursquare等足迹类的LBS
Foursquare针对商家推出了顾客消费习惯分析工具,增加用户的活跃度及粘性。

5. 把关系“数据化”
Facebook就是一个将关系“数据化”的典型例子,是由10亿用户编织的一张关系大网。
 一项分析表明,个人偿还债务的可能性与其朋友偿还债务的可能性相关,如此一来,Facebook中存储的关系数据就可派上用场。

6. 把情感“数据化”
Twitter记录和分享人们的情绪片段和思想火花,它把人们的情绪和想法“数据化”了。
对Twitter做句法分析,可以获得顾客的反馈意见,预测电影的票房,预测股市的涨跌等等。
一项分析表明,从微博使用者的软件和设备,语言,地理位置,关注的人以及粉丝的数量和名字,可以得出不同文化背景下人们每天的心情模式。

7. 把经历“数据化”
LinkedIn将工作经历“数据化”,帮我们认识朋友的朋友,以及找到一份好工作。
不过,说实话,LinkedIn动不动就发一封信骚扰,我是挺烦这个的。
也许,等哪天真的通过这个找到一份好工作,我才会改变对LinkedIn的看法。

8. GreenGoose:销售能放置在物品上的微型运动感应器,监测物品的使用次数。

9. 政府公开的各种档案

如果一切皆可“数据化”,那么是不是可以说,一切皆是信息。
看过《源代码》的人是不是有这样的体会:世界的本质是信息,你所看到的一切,经历过的事,爱上的人,都是信息,都是一段段代码片段。

那么我们应当怎样去利用这些信息而不被这些信息所利用呢?

参考文献:
1. http://coolxll.me/2010/03/foursquare/
2. http://baike.baidu.com/view/3054611.htm
3. http://itindex.net/detail/41677-%E5%BA%94%E7%94%A8-foursquare-%E9%BB%91%E5%AE%A2
4. https://developer.foursquare.com/

BigData_005:《大数据时代》读后感之五:寻找相关关系,而不探求因果关系

作为地球上最智慧的生物,人类的天性之一就是:探索未知,探索未来。人类的文明与科技的进步也是在“为什么不”的疑问中一步步走到今天。
然后,作者却说,在大数据时代,知道“是什么”就够了,没必要知道“为什么”。
这与我们从小的教育完全相违背,要知道:
(1)苹果落到牛顿的肩上,是因为万有引力。
(2)亚当与夏娃偷吃了苹果,是因为爱情和性。
(3)被人咬了一口的苹果的Apple Logo,是为了纪念图灵。
世间万事万物,都是由因果组成的,当一件事情发生时,有谁不想知道事件背后的原因呢?

其实,看完本书,你会明白作者其实想表达的意思是,寻找事物之间的相关性要比因果性容易的多,如果相关性已经帮助我们解决了问题,那么因果问题可以放一放。
因为因果关系的证明需要耗费的资源相当大,还是留给科学家们去研究吧。

大数据之“寻找相关关系,而不探求因果关系”案例:

1. Amazon专业书评家与书评程序推荐书籍比赛,以专业书评家惨败而告终。
这是一个有趣的比赛,一方是一帮花重金请来的专业书评家,通过写书评推荐书籍;另一方是书评程序,看看谁推荐的书籍客户购买的多,结果专业书评家惨败,继而被解散。
以往的书评程序都是通过搜集并分析用户的信息来推荐书籍:比如购买了哪些书籍?哪些只是浏览了而没有购买?浏览了多久?哪些书是一起购买的。
这种方式只是显式地发掘用户购买图书的原因,其实用户购买某个图书的原因实在是太多了。
Amazon改变了这种传统思路:它分析的是对象是书,或者书和书之间的关联。这种“item-to-item”的协同过滤技术大获成功。
找出产品之间的关联性,而不是客户之间的不同,就能提高推荐的命中率:你推荐的就是客户想买的。
目前Amazon的1/3的销售额都来自于机器生成的个性化推荐。
至于客户为什么买,你不需要关注,因为每个人的心灵都是一片海洋。

这个例子再次地印证了行业专家与大数据的博弈结果:直觉的判断让位于精准的数据分析。

2. 沃尔玛:请把蛋挞和飓风产品放在一起
还记得沃尔玛那个著名的“啤酒+尿不湿”案例吗,每逢周五,啤酒和尿不湿的销量激增,
原来是因为男人为周末观看比赛,买啤酒的同时一次性采购下一周日用品,一边看比赛,一边看孩子,尿不湿当然是必不可少的。
这一切源于沃尔玛保存了历史交易记录,其中不仅包括每位顾客的购物清单,还包括购物篮中的商品,以及天气。
这次经过分析,他们发现飓风季节,手电筒和蛋挞的销量同时增加了。
因此,每当飓风来临时,沃尔玛会把蛋挞放到靠近飓风用品的地方。

沃尔玛的例子不仅找到了相关关系,还找到了因果关系,这当然更好。
这个道理同样可以运用到网店,比如发现最近一个时间段某个搜索的关键词激增,那么就可以多多的备此类货物。
知道“是什么”就够了,没必要知道“为什么”,这一观点同样适用于其它行业,而不只是电子商务。

3. FICO: 预测你明天会做什么?
FICO会判断一个人会不会遵从医嘱,按时吃药。搜集的数据都是一些非常稀松平常的:比如在某地的居住时间,婚姻状况,多久换一份工作,是否有车有房。

4. Eperian: 根据人的信用卡消费记录判断个人的收入情况
这种分析的成本仅需1美元,而通过其它手段则需要10美元。
 
5. Aviva: 预测健康隐患
搜集的数据也是一些非常稀松平常的:个人爱好,常浏览的网站,常看的节目,收入等等。

6. Target:零售商通过客户购物方式预测是否怀孕?
Target会找出与怀孕相关的20多种关联物品,甚至比父亲先知道女儿已经怀孕的事实。
那么零售商为什么要预测这个呢?
因为夫妻有孩子前后,会产生很大的变化,会光顾以前不去的商店,建立品牌的忠诚度,因此抢先一步争取到这些未来的父母,也就赢得了持续的商机。

7. UPS:如何降低全美6万辆汽车的保养费用
UPS决定在重要的汽车零部件上安装传感器,虽然在每辆车上安装传感器再加上收集和分析数据的费用每年会增加额外的一笔开支,但是比出现故障而换车的情况损失小得多,并且只更换必须要更换的零件;综合下来,每年能够节省好几百万美元。
 
8. 监测早产儿的细微的身体变化,能够在明显出现感染状况前24小时发出感染信号。
注意,这里不是根据医学的因果关系,而是完全靠大数据给出的预测,系统并不知道为什么会感染!
恰恰相反,大数据预测表明,早产儿的稳定不但不是病情好转的的标志,而是暴风雨前的宁静。

9. 幸福的非线性关系:收入水平和幸福感成正比吗?
实际上二者的关系是更复杂的动态关系:比如1万元以下的人增加收入后会感到很幸福,1万元以上的人则感受不明显。
这个事实有助于政府的策略的制定:提高低收入的人群的收入更有利于增加全民的幸福感。
10. 橙色的二手车的发生质量问题的可能性是其它车的一半
没有人知道为什么,如果想要知道为什么就需要做大量的实验来佐证。
消费者不需要知道为什么,买橙色的二手车就好了。  
11. 预测曼哈顿51000个沙井盖哪个可能会爆炸?
根据1880年以来的数据,建立了涵盖106种可能导致爆炸的模型,测试2009年会出现问题的井盖,测试结果与实际情况高度吻合。
同样,在这个例子中,我们不知道原因,但是只要结果就好了,有些甚至是看来电缆没有任何问题的井盖却发生了爆炸。
这个例子是相当典型的大数据的例子,满足了大数据的三个思维要素:
(1)样本=全部:必须分析全部的51000的井盖,万一你漏掉的那个井盖发生了爆炸,后果不堪设想。
(2)允许混杂的数据:从1880年以来的数据,很难没有错误。
(3)寻找相关关系,而不探求因果关系。

好,现在我们来思考一个有点哲学高度的问题:如果大数据能够告诉我们最终的结果,我们是坚持我们的信仰,还是臣服于数据告诉我们的真相。
如果是后者,那人类的存在意义究竟在哪里呢?
难以想象,如果我们的一切行为都遵循数据给我们的指示:出生,恋爱,工作,结婚......那些我们赖以维系的精神家园将会崩塌,因为有一双看不见的眼睛在我们身后洞察了一切。
   
那么世间万事万物,到底由因果组成的,还是由大数据决定的呢?
本书作者提出了一个反驳:如果万事万物都是由因果构成的,包括人的每个想法,每个决定、每个行为都是因为其它的“果”而产生的“因”,这些“因”又产生其它的“果”。
那么就不存在人的自由意志一说了,因为所有的生命轨迹都是由因果控制了。
   
作者还说,人们习惯性用因果关系来解释周围的世界,其实因果关系被完全证实的可能性几乎没有,只能说两者之间很可能存在因果关系。
因为证明因果关系所耗费的资源相当大,每一个反例的出现都要加以说明,过滤;而证明相关关系的就相对容易许多,因为数据本身会说话。

孰是孰非,我想还是留给每个人自己去思考吧。

不管则样,这就是大数据时代的特点:海量数据 + 好的分析工具 = 找出原本看起来不相关的几个事物之间的关联性。
前文说过,大数据的最大的用途就是预测,这种相关关系分析方法能够更准确、更快地预测,虽然它不能告诉你背后的原因。
但是你一定要知道原因吗,爱一个人需要理由吗?需要吗?不需要吗?......
 
参考文献:
1. http://club.1688.com/threadview/28867756.html  

BigData_004:《大数据时代》读后感之四:Hadoop 全球案例

Hadoop的出现也许不是必然的,但处理大数据的软件的出现是必然的,没有Hadoop,也会有Madoop,或Wadoop。
Hadoop的出现适应了这个时代对海量数据处理的要求,它认为数据量是如此巨大,以至于无法移动,所以必须本地分析。
当然,Hadoop不适用于卫星发射、银行交易等这种对精确度要求很高的任务。

Hadoop全球案例:

1. VISA使用Hadoop分析可疑交易
VISA两年会产生730亿笔交易,使用Hadloop以后,处理这些交易的时间,从原来的1个月缩短到现在的13分钟。

2. ZestFinance:是否该向有不良信用记录的人贷款
银行当然不喜欢有不良信用记录的人,但ZestFinance不这样认为。
与其它贷款信用评级软件不同,ZestFinance通过分析大量不是那么突出的事件,而不是少量的突出事件,来判断是否该向有不良信用记录的人贷款。
所谓不突出的事件,指的是包含社会网络等等信息的70000多个变量信息。
也许你不相信,但这是事实,通过这种分析,巨额贷款拖欠率比行业平均水平降低了1/3。
这里顺便说一下,ZestFinance的创始人Douglas Merrill有一篇讲话很有意思:请招聘那些惹恼你的人。
他认为,雇用克隆体就是一场灾难。要用人就要用那些能激怒你的人,不同类型的人有不同的观点,在讨论中的意见分歧才会产生更多有意义的结果,并不是说这些人就无法融入你的公司文化,他们完全可以,只是同时他们也会挑战你的想法,可能因为方式错误而惹怒你,但这同时也证明了他与你的不同。
多样化的团队更容易取得成功,反之亦然,如果你建立了一个外形相似,想法相似,穿着相似的团队,那么在很多事情上,你的团队idea可能只有一个,即便你认为这不是最佳方案,但是你必须接受,只能认为这个想法就是正确的,因为你们想不出别的东西。
当然这是题外话,供那些想要创业的人参考,而且你自身必须足够强大,能够面对这些质疑和挑战;如果你是个打工的,没有创业的打算,还是干好你自己的本职工作吧。

3. 沃尔玛:制定促销策略,寻找新商机
沃尔玛使用Hadoop来分析顾客搜寻商品的行为,以及用户透过搜索引擎寻找到网站的关键词,利用这些关键词的分析结果发掘顾客需求,以规划下一季商品的促销策略。

4. e-Bay:降低数据仓储负载
e-Bay使用Hadoop来进行数据预先处理,将大块结构的非结构化数据拆解成小型数据,再放入数据仓储系统的数据模型中分析,加快分析速度,减轻对数据仓储系统的分析负载。

5. 台湾中华电信:拆解大型资料
一个非结构化档案的大小可能达到数十GB,甚至TB,使用Hadoop将其拆解为大小相等的小型结构化资料块,然后再进行结构化分析。

参考文献:
1. http://www.oatos.com/5174.html
2. http://www.ithome.com.tw/itadm/article.php?c=73977&s=2
3. http://w-w.cn/thread-2262-1-1.html
4. http://www.weste.net/2013/2-18/89047.html
5. http://www.leiphone.com/0823-annie-zestfinance-ceo.html
6. http://www.leiphone.com/tag/zestfinance
7. http://www.youtube.com/watch?v=18CyX5sJx5I&list=PL76C07D8FA8306382

BigData_003:《大数据时代》读后感之三:允许混杂,才能得到精确

现实世界中只有5%的数据是结构化的,这些数据可以使用传统的数据库存储和处理。
还有95%的数据是非结构化的,而且鱼龙混杂,传统的数据库既无法存储,更无法处理。
在大数据时代,数据的混杂性是不可避免的,甚至有错误的数据混杂进来,这同样是不可避免的。
但有一点是可以肯定的:总的预测结果不会因为这些混乱的数据而产生偏差,原因就在于数据量足够大。
作者原来的说法是“要混杂,不要精确”,不知道是不是翻译的问题,我听着总有些别扭。
反复阅读后,我自己总结了下面这句话,我觉得更加贴近作者实际要表达的意思。
“允许混杂,才能得到精确。”听着有些像老子的口吻,是不是,所谓“大音希声,大象无形”。

大数据之“允许混杂,才能得到精确”案例:

1. 葡萄园里的温度计
在每棵葡萄树下摆放一个温度计,当然比整个葡萄园只摆放一个温度计得到的数据更准确。
当温度计的数量足够多,读数的频率足够高,某个温度计某次读数的失准不会影响整个葡萄园的温度测量结果。

2. 国际象棋的人机大战
国际象棋棋迷不会忘记,1997年,如日中天的世界冠军卡斯帕罗夫输给“更深的蓝”的场景。
这场比赛之后,IBM决定立即拆解“更深的蓝”,不再给卡斯帕罗夫“复仇”的机会,为此,已经退役的卡斯帕罗夫至今耿耿于怀。
“有几步棋不像是电脑下出来的。”卡斯帕罗夫输掉比赛后如是说。
如果电脑能够下出不像是电脑下出来的棋,是不是说明电脑已经学会了“思考”?
这是人类的幸与不幸,这个话题太大太深,这里就不展开了。
实际上过去几十年以来,象棋的算法相对固定,改变很小,象棋程序的越来越强大靠的是添加了越来越多的数据。

3. 微软Word的语法检查程序
说出来也许会吓你一跳,微软的拼写检查功能,每年需要花费数百万美元来维护,因为需要不断编译和更新字典,这个工作量相当大。
为此, 微软研究院的人员一直在想方设法改进该功能,但他们不确认是改进现有算法,还是研发新的方法。
于是,他们为4种不同的算法添加了更多的数据,结果发现,随着数据的增多,最高到10亿,4种算法的表现都提高了。
“我们得重新衡量一下更多的人力物力是应该用在算法发展上还是语料库的发展上”,研发人员如是说。

4. 谷歌的翻译系统
谷歌的翻译质量虽然不尽如人意,但还算是机器翻译里比较好的,这倒不是因为它使用了多么好的算法,而是它拥有别人难以企及的数据。
虽然这些数据质量参差不齐,甚至有错误,完全无法跟英语专业词典相比,但是超过字典好几百万倍的体量,使它的优势完全压倒了缺点。

案例2、3、4都直指一个问题:是算法重要还是数据重要?
比较科学的回答是这样的:大数据基础上的简单算法比小数据基础上的复杂算法更加有效。

5. 监控炼油厂石油管道的压力
通过密布在管道线上的无线感应器,监测管道的压力,发现某些原油对管道腐蚀性很强。
虽然严酷的环境可能让某些感应器失效,但在大数据量的情况下,这些错误不会影响最终的结果。

6. 麻省理工:通货紧缩预测软件
每天收集互联网上50万种商品的价格,然后分析,看看是否通货膨胀,而不用雇佣大量的人力以各种方式采集数据。
准确地预测了2008年9月雷曼兄弟破产之后的通货紧缩的趋势。

既然混杂是不可避免的,就让我们拥抱它吧,因为我们就生活在一个“混杂”的时代。
比如使用Tag标签来对资源进行分类,虽然每个人对事物的认识导致标签的内容不一致,但是却提供了更多更丰富的标签,这其实是对同一事物每个人的侧重点不一样,当合并多个标签关键字进行搜索时,反而能够更精准的找到你要的资源。

更进一步,作者认为“混杂”有可能是新的标准,因为现实世界中大量存在的是各种各样的,参差不齐的海量数据,是时候考虑提高数据的宽容度了,因为现实的数据很少完全符合预先设定的数据类型,这将催生新的数据库设计,新的数据库必须能够处理五花八门的数据。

在这里,我个人认为,传统的数据库还是能够处理5%的数据,至于其它95%的数据,是否会催生新的数据库设计,我持保留意见。就让数据库处理结构化的数据,这是它的强项;其它的非结构化的海量数据就交给Hadoop吧。

BigData_002:《大数据时代》读后感之二:样本=全部

如果能够采集所有的数据,并且有足够计算能力处理这些数据,那么为什么还要“采样”呢?
这里所谓的“全部”,是指获取与某事物相关的所有数据,包括那些看来似乎毫不相关的数据。

采样有它先天的局限性,比如样本的选择,为什么选择这些而不是那些?
想想我们在大学里做的电子物理实验,我们“抛弃”了那些看起来不是让我们很满意的数据,而让最终的实验结果看起来很完美。
但那些被“抛弃”的数据,就真的没有反应实验的某些真实的异常情况吗?
采样还有一个问题,如果是采样分析,怎样保证样本的随机性?
现代统计学已经证明:采样分析的精确性随着采样随机性的增加而大幅提高,与样本数量的增加关系不大。即随机性比样本重要。

大数据之“样本=全部”案例:

1. 23andme:乔布斯治疗癌症
乔布斯把自己的DNA序列全部排列出来,要知道人体有30亿对碱基对啊,然后根据其特定基因用药。这种方式没有能够挽救他的生命,却也延长了好几年。
 
2. Xoom:跨境汇款的异常交易报警
分析每一笔交易的相关数据,单看每一笔都没有什么问题,但是分析了大量交易后,就会发现这可能是诈骗集团在试图诈骗。

3. 如何认定相扑比赛中选手是否消极比赛
分析11年中超过64000场比赛的记录,从中寻找异常的情况。
结果显示,消极比赛通常出现在不是那么重要的比赛,比如联赛的后几场不被人关注的比赛。

4. Lytro相机:捕捉所有的光,即光场相机。
这是一个非常了不起的想法,捕捉现场所有的光,具体生成什么照片,想要什么效果,拍摄之后再做决定。

5. 社会关系分析
分析全美1/5人口的4个月内的移动通信记录,发现一个有趣的现象:
一个在关系网内有着众多好友的人的重要性竟然不如一个只是与很多关系网外的人有联系的人。
在结果得出之前,你能想象的到这个结果吗?
          

2013年7月10日星期三

BigData_001:《大数据时代》读后感之一:让数据“发声”

谷歌每天接收30亿条搜索指令,YouTub每秒钟有一段视频在上传,Twitter每天发布4亿条微博,你知道这意味着什么吗?
这意味着,我们已经生活在一个大数据时代,不管你喜欢不喜欢,它就在那里默不作声地看着周遭发生的一切。

量变终会导致质变,当数据大到你无法想象的程度时,数据将不再沉默,它会发出自己的声音。
在大数据面前,行业专家们将黯然失色,因为他们往往依赖过去的经验给出一些想当然的答案。
对此,大数据会以铁的事实给专家们一记响亮的耳光:不,事实不是你想的那样。

大数据案例:

1. 2009年,谷歌成功了预测了甲型H1N1流感的爆发
谷歌分析了2003年与2008年之间的5000万搜索词条,建立了4.5亿的模型,最终发现有45条词条的数学模型与美国疾控中心统计的流感人数基本一致,匹配度高达97%,而且判断非常迅速及时,只需要1-2天。
对模型感兴趣的人可以参考文献1。
不需要卫生部门的层层申报,仅仅通过搜索关键字,就能预测流感的爆发,这听起来是不是有些匪夷所思?

2. Farecast:机票预测系统助你买到便宜的机票
航空公司的各个时间段的机票价格各不相同,如何才能购买到便宜的机票呢?
你也许会主观地认为,机票预订的越早,机票就会越便宜。但事实并非如此,因为航空公司制定机票价格的因素有很多,比如:旅游季节,航线推广,等等。
机票价格数据来自一个旅游网站,为了提高预测的准确性,然后联系了一家行业机票预订数据库,目前准确度达到75%,平均节省50美元。
如果机票价格可以预测,那么酒店价格,同类商品价格,应该也可以预测,只要产品差异性不大,并且存在大幅价格差和大量可运用的历史数据。
   
3. Decide.com:预测电子商务网站的产品价格
你也许会认为当新产品发布时,旧产品的价格会下降,但Decide.com分析了400万产品的超过250亿条价格信息后,发现旧产品可能会经历一个短暂的价格上浮。

4. Inrix:搜集交通状况数据,成功预测2011年美国经济复苏放缓
分析发现,上下班高峰时期的交通状况变好了,说明失业率增加了,经济状况变差了。
虽然这一结论遭到政客们的强烈否定,但后来一系列经济数据表明情况就是如此。

5. 天文学:宇宙的起源
大多数科学家已经认可这样一个事实,宇宙的起源来自于一场大爆炸。
今天,最先进的天文望远镜在几周内收集到的数据,已经比天文史上总共收集到的数据还要多。
大数据一词,即来源于此。

如今,我们同样经历着另外一场大爆炸:信息大爆炸。
我们必须重新审视那些本来冰冷的数据,虽然它们属于过去,却能预知未来。
没错,大数据的最大用途就是预测,它能够预测哪些事物呢?
(1)推荐书籍
(2)网站排序
(3)猜喜好
(4)猜朋友
(5)疾病诊断与治疗
(6)识别犯罪分子
(7)预测股市
(8)兵棋推演
(9)预测电影票房
(10)预测歌曲是否会流行
(11)预测是否通货膨胀
(12)分析迈克尔*杰克逊的录像,将其"复活",举办虚拟演唱会。

这里的每一项都够写一篇文章的,感兴趣的人自己展开学习吧。
你也许觉得(7)有些无法预测,因为牛顿曾经说过:“我能计算出天体运行的轨迹,却难以预料到人们的疯狂。”
我要提醒的有两点:(1)牛顿没有生活在大数据时代。(2)牛顿说的是人们的疯狂。
数据不会发疯,只会以事实为依据,毕竟预测只是提供概率较高的可能性,没人能保证没有意外情况。

其实,“数据”一词在拉丁文语的原意是“已知”,莫非先知们早就暗示了我们这个秘密,而我们一直没有理会?

参考文献:
1. http://www.natureasia.com/zh-cn/nature/highlights/22032