《一切皆可“数据化”》告诉我们数据可以从哪里获得,解决了大数据来源的问题。
《ReCaptcha 珍惜和利用每个人的10秒钟》则给我们这样一个启示:原来那些看起来即用即丢的废弃数据,只要开动脑筋,也是可以加以利用的。
数据不同于其它不可再生资源,比如:水,煤等,数据可以反复利用,只要你有好的idea,就可以发掘到前人没有发现的数据宝藏。
1. 数据再利用案例
(1)IBM 电动汽车的动力供应优化预测
根据电动汽车的电池电量、汽车的位置,时间以及充电插槽数量,来决定充电站的位置以及对电力系统的影响。
在一个城市中,如何最高效地分配加油站,充电站,表面看这是一个基础设施问题,实际上这是一个信息问题。
(2)移动基站的选址
根据手机在何时何地连接哪个基站的信息,以及信号的强度,决定是否在某地添加和升级基础设施。
(3)移动运营商根据所掌握的用户位置信息,判断用户的密集程度,然后根据这个信息出售该地区的分时广告牌的价格。
(4)电子商务根据所掌握的销售数据信息,判断产品的关联程度。
(5)物流公司根据所掌握的产品的出货信息,判断哪些地区对哪些产品更感兴趣。
2. 数据重组案例
(1)丹麦癌症协会:结合1990-2007年间手机用户和癌症患者的信息,研究手机是否会增加致癌率。
(2)Zillow.com 房产网:除了显示房产的信息和价格,还把附近社区的交易和物业信息也聚合到一起,用来预测每套住宅的价格。
(3)FlyOnTime.us:根据美国国家海洋局和大气管理局以及国家气象服务的实时数据,结合航班数据,预测航班时间。
结果表明,航班因大雾延迟的时间是因雪延迟的两倍,这与人们的直观感受完全不同。
3. 数据扩展案例
(1)监控摄像头不仅用来监控小偷,还可以用来跟踪客户流,以及他们停留的位置。
据此,店家可以设计店面的最佳布局,以及判断营销活动的有效性。
转变观念,监控摄像头就可以从一项纯粹的成本支出,变成一项可增加收入的投资。
(2)谷歌街景车
4. 数据折旧案例
数据也会“折旧”,这里“折旧”的意思是随着时间的推移,数据将失去一部分用途。
很难想象一个用户会对与10年前购买的相类似的书籍还感兴趣。
(1)亚马逊建立了一套复杂的模型分离有用的和无用的数据
5. 数据“废气”案例
人为产生的错误的数据,是不是没有用的数据“废气”?
这些在以往通常被认为是没有用的数据,如果使用得当,也可以发挥它的作用,比如 ReCaptcha 就是一个典型的数据“废气”案例。
让我们学会“从错误的事实中寻找真理”,因为“从疯子的嘴里,往往会泄露天堂的秘密。”,数据尚且如此,人生何尝不是呢。
(1)使用语音识别系统处理客户投诉
即使结果不准确,也能帮助我们了解事情的原委,更进一步,它可以帮助我们修正系统的识别能力。
(2)谷歌搜索:你要找的是不是......
当我们在使用谷歌搜索东西时,如果关键词拼写错了,它会提示:你要找的是不是......
当然,有时谷歌也许误解了我们的意思,但是不要紧,通过用户的点击可以告诉系统正确的拼写,用户帮助系统提高了学习能力。
谷歌已经把这项技术延伸到搜素的自动完成功能、Gmail、谷歌文档,以及翻译系统。
(3)谷歌搜索:如果你找的条目比较靠后......
(6)电子书记录用户阅读信息
记录用户阅读一页所花的时间,略读还是细读,还是放弃阅读,是否划线强调,是否在空白处做了笔记,最终得出读者好恶和阅读习惯。
这些信息可以卖给出版社,告诉他们读者对哪些书籍的哪些段落感兴趣。
(7)在线教育网站,记录学生学习信息,有助于改善教学方式。
记录学生浏览的教学视频,学习论坛中浏览率较高的帖子,作业中易错的题目。
《ReCaptcha 珍惜和利用每个人的10秒钟》则给我们这样一个启示:原来那些看起来即用即丢的废弃数据,只要开动脑筋,也是可以加以利用的。
数据不同于其它不可再生资源,比如:水,煤等,数据可以反复利用,只要你有好的idea,就可以发掘到前人没有发现的数据宝藏。
1. 数据再利用案例
(1)IBM 电动汽车的动力供应优化预测
根据电动汽车的电池电量、汽车的位置,时间以及充电插槽数量,来决定充电站的位置以及对电力系统的影响。
在一个城市中,如何最高效地分配加油站,充电站,表面看这是一个基础设施问题,实际上这是一个信息问题。
(2)移动基站的选址
根据手机在何时何地连接哪个基站的信息,以及信号的强度,决定是否在某地添加和升级基础设施。
(3)移动运营商根据所掌握的用户位置信息,判断用户的密集程度,然后根据这个信息出售该地区的分时广告牌的价格。
(4)电子商务根据所掌握的销售数据信息,判断产品的关联程度。
(5)物流公司根据所掌握的产品的出货信息,判断哪些地区对哪些产品更感兴趣。
2. 数据重组案例
(1)丹麦癌症协会:结合1990-2007年间手机用户和癌症患者的信息,研究手机是否会增加致癌率。
(2)Zillow.com 房产网:除了显示房产的信息和价格,还把附近社区的交易和物业信息也聚合到一起,用来预测每套住宅的价格。
(3)FlyOnTime.us:根据美国国家海洋局和大气管理局以及国家气象服务的实时数据,结合航班数据,预测航班时间。
结果表明,航班因大雾延迟的时间是因雪延迟的两倍,这与人们的直观感受完全不同。
3. 数据扩展案例
(1)监控摄像头不仅用来监控小偷,还可以用来跟踪客户流,以及他们停留的位置。
据此,店家可以设计店面的最佳布局,以及判断营销活动的有效性。
转变观念,监控摄像头就可以从一项纯粹的成本支出,变成一项可增加收入的投资。
(2)谷歌街景车
4. 数据折旧案例
数据也会“折旧”,这里“折旧”的意思是随着时间的推移,数据将失去一部分用途。
很难想象一个用户会对与10年前购买的相类似的书籍还感兴趣。
(1)亚马逊建立了一套复杂的模型分离有用的和无用的数据
5. 数据“废气”案例
人为产生的错误的数据,是不是没有用的数据“废气”?
这些在以往通常被认为是没有用的数据,如果使用得当,也可以发挥它的作用,比如 ReCaptcha 就是一个典型的数据“废气”案例。
让我们学会“从错误的事实中寻找真理”,因为“从疯子的嘴里,往往会泄露天堂的秘密。”,数据尚且如此,人生何尝不是呢。
(1)使用语音识别系统处理客户投诉
即使结果不准确,也能帮助我们了解事情的原委,更进一步,它可以帮助我们修正系统的识别能力。
(2)谷歌搜索:你要找的是不是......
当我们在使用谷歌搜索东西时,如果关键词拼写错了,它会提示:你要找的是不是......
当然,有时谷歌也许误解了我们的意思,但是不要紧,通过用户的点击可以告诉系统正确的拼写,用户帮助系统提高了学习能力。
谷歌已经把这项技术延伸到搜素的自动完成功能、Gmail、谷歌文档,以及翻译系统。
(3)谷歌搜索:如果你找的条目比较靠后......
谷歌搜集并分析用户的点击条目,改善搜索结果的相关性,把他们想要看的网页排名尽量靠前。
当用户指出搜索结果误解了他们的意思时,实际上是有效地“训练”了这个系统,让它变得更好。
显然,这与国内一家知名的搜索公司的理念完全不同,因为谷歌当Google改名“谷歌中国”进入中国时,是秉持这样的信念的:
“我们把每个网站当成一个网民,所有搜索结果的排名完全由这些选民的相互‘投票’公正决定。因为我们相信,信息面前,人人平等。”
“我们把每个网站当成一个网民,所有搜索结果的排名完全由这些选民的相互‘投票’公正决定。因为我们相信,信息面前,人人平等。”
一个是按照用户的搜索词尽可能地提供用户满意的搜索结果,一个是罔顾用户的搜索词强行给你一个竞价排名链接。
(4)垃圾邮件过滤技术
(5)社交网站记录用户的动作,然后广播给他的好友。
(6)电子书记录用户阅读信息
记录用户阅读一页所花的时间,略读还是细读,还是放弃阅读,是否划线强调,是否在空白处做了笔记,最终得出读者好恶和阅读习惯。
这些信息可以卖给出版社,告诉他们读者对哪些书籍的哪些段落感兴趣。
(7)在线教育网站,记录学生学习信息,有助于改善教学方式。
记录学生浏览的教学视频,学习论坛中浏览率较高的帖子,作业中易错的题目。