dirk @ 2007.05.25 , 21:11
6

reCAPTCHA —— 一个创新的 Anti-Spam 系统

reCAPTCHA —— 一个创新的 Anti-Spam 系统输验证码应该算这个世界上最无极的事情之一,通过 reCAPTCHA 可能会附上一点意义。这个项目简单说就是把 Anti-Spam 和人工识别(真的是人工)结合起来。因为大家都知道目前 OCR 的准确度是不高的,那么图书馆里大量的书需要人工数字化,现在当你需要通过 reCAPTCHA 证明不是一个机器人时,它会给你两个模糊的单词,一个是计算机已经识别的,它用来 Anti-Spam,另一个是从纸本图书上扫描并且计算机没法识别的,你额外的工作就是帮它识别出来。

你可能会问,如果第一个单词计算机能识别,那么安装了 OCR 的 Spam 系统不也能读出来吗?这个问题只要再在原来扫描的单词上加一些干扰就可以了,比如说我们常见的加一道杠。如果光是这样会因为多做了无用功而显得愚笨,更重要和富于算法美学的是,经过人工识别的单词可以作为下一个用户的第一个单词。这样,少数几个识别好的单词就可以启动这个计划,并发扬光大。
# Copyright for Jandan.net(http://jandan.net/)
最后要问的是,每个人智商不一样(!),读错了怎么办?那岂不是误伤了下一个使用者?这个系统有一套加分机制,一个单词可以送给多人读,“计算出”它最可能是哪个单词(还有细节就不穷究了~~)。[demo]

我想说的是,汉字的 OCR 比拼音文字的更加艰巨,如果有国人做出类似的系统,我当然更希望把这些劳动贡献给伟大的祖国啊~~~~~

链接 | 来源

0.0
赞一个 (1)

TOTAL COMMENTS: 6+1

  1. Yakizz
    @9 years ago
    35510

    又是一篇技术性很强的的文章……
    中国汉字最帅气!

    OO [0] XX [0]
  2. 黑星星
    @9 years ago
    35526

    说白了就是验证码吧?

    OO [0] XX [1]
  3. Yakizz
    @9 years ago
    35528

    对~是验证码~

    OO [0] XX [0]
  4. 35654

    如果用汉字,那么比划输入法将成为主流……(因为说不定会有不认识的字~)

    OO [1] XX [0]
  5. Zx.MYS
    @9 years ago
    114598

    原来是这样……
    可是我每次遇到这个验证码系统都会很恼火,因为经常打错。

    OO [0] XX [0]
  6. 558405

    ?????????B2C???????????????????????????????????????????????????ο??????????1000???????????и???????????????????? www.52kuaile.net QQ;1500716766 ?????13429584977 ??????????????????????????????????????????????????????κ???????????????????????????????????????????????

    OO [0] XX [0]

发表评论


24H最赞