2007/05/25:
6
reCAPTCHA —— 一个创新的 Anti-Spam 系统
dirk , 09:11 pm / 827 pv / 分享到微博
输验证码应该算这个世界上最无极的事情之一,通过 reCAPTCHA 可能会附上一点意义。这个项目简单说就是把 Anti-Spam 和人工识别(真的是人工)结合起来。因为大家都知道目前 OCR 的准确度是不高的,那么图书馆里大量的书需要人工数字化,现在当你需要通过 reCAPTCHA 证明不是一个机器人时,它会给你两个模糊的单词,一个是计算机已经识别的,它用来 Anti-Spam,另一个是从纸本图书上扫描并且计算机没法识别的,你额外的工作就是帮它识别出来。
你可能会问,如果第一个单词计算机能识别,那么安装了 OCR 的 Spam 系统不也能读出来吗?这个问题只要再在原来扫描的单词上加一些干扰就可以了,比如说我们常见的加一道杠。如果光是这样会因为多做了无用功而显得愚笨,更重要和富于算法美学的是,经过人工识别的单词可以作为下一个用户的第一个单词。这样,少数几个识别好的单词就可以启动这个计划,并发扬光大。
# Copyright for Jandan.net(http://jandan.net/)
最后要问的是,每个人智商不一样(!),读错了怎么办?那岂不是误伤了下一个使用者?这个系统有一套加分机制,一个单词可以送给多人读,“计算出”它最可能是哪个单词(还有细节就不穷究了~~)。[demo]
我想说的是,汉字的 OCR 比拼音文字的更加艰巨,如果有国人做出类似的系统,我当然更希望把这些劳动贡献给伟大的祖国啊~~~~~
链接 | 来源









又是一篇技术性很强的的文章……
中国汉字最帅气!
说白了就是验证码吧?
对~是验证码~
如果用汉字,那么比划输入法将成为主流……(因为说不定会有不认识的字~)
原来是这样……
可是我每次遇到这个验证码系统都会很恼火,因为经常打错。
?????????B2C???????????????????????????????????????????????????ο??????????1000???????????и???????????????????? www.52kuaile.net QQ;1500716766 ?????13429584977 ??????????????????????????????????????????????????????κ???????????????????????????????????????????????