@ 2007.05.25 , 21:11

reCAPTCHA —— 一个创新的 Anti-Spam 系统

[-]输验证码应该算这个世界上最无极的事情之一,通过 reCAPTCHA 可能会附上一点意义。这个项目简单说就是把 Anti-Spam 和人工识别(真的是人工)结合起来。因为大家都知道目前 OCR 的准确度是不高的,那么图书馆里大量的书需要人工数字化,现在当你需要通过 reCAPTCHA 证明不是一个机器人时,它会给你两个模糊的单词,一个是计算机已经识别的,它用来 Anti-Spam,另一个是从纸本图书上扫描并且计算机没法识别的,你额外的工作就是帮它识别出来。

你可能会问,如果第一个单词计算机能识别,那么安装了 OCR 的 Spam 系统不也能读出来吗?这个问题只要再在原来扫描的单词上加一些干扰就可以了,比如说我们常见的加一道杠。如果光是这样会因为多做了无用功而显得愚笨,更重要和富于算法美学的是,经过人工识别的单词可以作为下一个用户的第一个单词。这样,少数几个识别好的单词就可以启动这个计划,并发扬光大。
# Copyright for Jandan.net(http://jandan.net/)
最后要问的是,每个人智商不一样(!),读错了怎么办?那岂不是误伤了下一个使用者?这个系统有一套加分机制,一个单词可以送给多人读,“计算出”它最可能是哪个单词(还有细节就不穷究了~~)。[demo]

我想说的是,汉字的 OCR 比拼音文字的更加艰巨,如果有国人做出类似的系统,我当然更希望把这些劳动贡献给伟大的祖国啊~~~~~

链接 | 来源

赞一个 (1)