digest, select
dirk / 2007.05.25 / 9:11 pm
reCAPTCHA —— 一个创新的 Anti-Spam 系统 6+
输验证码应该算这个世界上最无极的事情之一,通过 reCAPTCHA 可能会附上一点意义。这个项目简单说就是把 Anti-Spam 和人工识别(真的是人工)结合起来。因为大家都知道目前 OCR 的准确度是不高的,那么图书馆里大量的书需要人工数字化,现在当你需要通过 reCAPTCHA 证明不是一个机器人时,它会给你两个模糊的单词,一个是计算机已经识别的,它用来 Anti-Spam,另一个是从纸本图书上扫描并且计算机没法识别的,你额外的工作就是帮它识别出来。
你可能会问,如果第一个单词计算机能识别,那么安装了 OCR 的 Spam 系统不也能读出来吗?这个问题只要再在原来扫描的单词上加一些干扰就可以了,比如说我们常见的加一道杠。如果光是这样会因为多做了无用功而显得愚笨,更重要和富于算法美学的是,经过人工识别的单词可以作为下一个用户的第一个单词。这样,少数几个识别好的单词就可以启动这个计划,并发扬光大。
# Copyright for Jandan.net(http://jandan.net/)
最后要问的是,每个人智商不一样(!),读错了怎么办?那岂不是误伤了下一个使用者?这个系统有一套加分机制,一个单词可以送给多人读,“计算出”它最可能是哪个单词(还有细节就不穷究了~~)。[demo]
我想说的是,汉字的 OCR 比拼音文字的更加艰巨,如果有国人做出类似的系统,我当然更希望把这些劳动贡献给伟大的祖国啊~~~~~
链接 | 来源







2007.05.25 10:13 pm
又是一篇技术性很强的的文章……
中国汉字最帅气!
2007.05.25 10:32 pm
说白了就是验证码吧?
2007.05.25 10:33 pm
对~是验证码~
2007.05.26 9:35 am
如果用汉字,那么比划输入法将成为主流……(因为说不定会有不认识的字~)
2007.08.11 11:52 am
?????????? ???????? ???з??? ?????н? ?????? ?辫 ????
http://www.ewbb.cn E??????????????????????????????,???4??15?????????????????裬
????0575??7724788 QQ??712809080 394961158
2008.02.11 1:27 am
原来是这样……
可是我每次遇到这个验证码系统都会很恼火,因为经常打错。