2013年7月16日星期二

BigData_007:《大数据时代》读后感之七:ReCaptcha 珍惜和利用每个人的10秒钟

你每天要登录哪些系统,要输入多少次验证码?平均花多少时间?
据统计,平均每个人输一次验证码的时间大概需要10秒钟。
也许你从未想过,也许你从未在意,毕竟只是区区的10秒钟,但谁的时间都不该被任意挥霍在没有意义的事情上,不是吗? 哪怕只有10秒钟。
要知道,全球每天有数亿次的验证码输入,按4亿次计算,乘以10秒,超过1百万小时。
1百万小时就这样被白白浪费掉了。

这个事情让我很感慨,想起了我当研发人员时的一件小事:
每周研发经理都会把这周的安排打印出来发到每个人的手上,精确到每个小时。
按说,这样的安排已经足够细致了:责任和任务都非常清楚。
但是,后来来了一个新的项目经理,一定要大家每天提交一个工作报告,把所做的事填再写一遍,精确到每个小时。
这让大家很不爽,于是我跟研发经理说,这个实在没有必要,大家都知道每天在做什么,关键这个东西写完了没有人去看的,实在没有意义。
研发经理有些为难,看得出他不想跟项目经理发生不快,他反问我:你每天花2-3分钟填写一下有多大难度?
我没有退让,说道:现在公司有100多人,每个人每天花2-3分钟写这些没有意义的东东,相当于公司的时间财产每天浪费了5-6个小时。长此以往,最终损失的是公司。
研发经理听了之后,一言不发,于是每天大家继续填写这个报告。
三个月之后,这个daily report 无疾而终。

有人希望能够利用输入验证码的时间做些有意义的事,这真是一个对生活认真负责到极点的人才会去想的问题,这个人就是:路易斯*冯*安。
他的验证码项目名称是:ReCaptcha,Completely Automated Public Turing Test to Tell Computers and Humans Apart,全自动区分计算机和人类的图灵测试。

其原理很简单:每次提供两个验证码,让用户识别并输入,其中一个验证码是机器产生的,另一个验证码是从图书中扫描的文本,用来帮助提高图书数字化的识别能力。
你并不知道哪个验证码是机器提供的或是从图书中扫描的,因此你必须全部输入正确才可以。

你也许会好奇,系统怎么知道我针对从图书中扫描的文本输入的验证码是正确的呢?
答案也很简单:系统其实不知道,系统根本不做这个验证,系统只做记录,当有5个以上的人对同一个扫描文本的验证码输入是一样的时候,系统就记录这个文本作为该扫描文本的最终答案。

如果你的项目中需要验证码,请考虑使用ReCaptcha吧,在每个人输入验证码的时候还可以帮助提高图书扫描文本识别能力。

怎么样,ReCaptcha 珍惜和利用你的10秒钟,你还有什么理由浪费自己的1小时呢?
Seize The Day, Seize The Hour!

参看文献:
1. http://googlewebmaster-cn.blogspot.com/2010/02/recaptcha.html
2. http://googlewebmastercentral.blogspot.com/2010/01/protect-your-site-from-spammers-with.html
3. http://rikugun.iteye.com/blog/438924

没有评论: