@ 2013.02.17 , 12:41
49

关于 reCAPTCHA 验证码

国外很多下载站用到下面这种验证码,它其实是 Google 提供的 reCAPTCHA 服务(link),可以免费申请和使用。
[-]

# Jimmy Liye 同学翻译了 Google reCAPTCHA 的部分说明(原文:放了这只验证码吧):

验证码大家每天都会见到,可是你会想到当你每次不耐烦的输入一个单词的时候都为人类做出了一点贡献吗?

验证码(CAPTCHA)或者叫做全自动区分计算机和人类的图灵测试(Completely Automated Public Turing test to tell Computers and Humans Apart),使我们上网的人每天都可以见到的,而它的作用除了防止垃圾注册或者评论以外还有别的吗?来自Google的reCAPTCHA(上图)告诉我们,你其实还可以为人类做贡献。

题外话:现在OCR的阅读效率实在是不高,下面这张图就可以说明问题。
[-]

它的情景是这样的,有一天,某台机器扫描了一本书,想把它转成电子版:
[-]

处理出来是这样子的:

The Hreckinridge’ and Lane Democrats, having taken courage at the recent eastern advises, are [xxxxxxxxxx] energetically for the campaign: Several prominent Democrats who at first favoredDonoLea, are coming out. for the other aide, apparently under the [xxxxxxxx] of Federal [xxxxxxxxx]. An address to the National Democracy of ,1ifornia, urging the party to supportHaeeslipslDas, has recently been published, which manifestlybss strengthened that aide of the [xxxxxxxxx]: It is signed by 65 Democrats, many of whom occupy respectab e and prominent positions in the party, 22 of them are Federal office-holders,[xxxxx] more are recipients of Federal patronage, and the others represent a mass of politicians giving the document [xxxx][xxxxxx] mTheDcu8las Democrats are also active The Irish and German vote will mostly go with ths# branch of the party, but it is[xxxxxxxxx] to [xxxxxxxx] [xxxxx] [xxxx] [xx] the stronger. Thus far 17 IT newspapers have declared for DonGres, 13 for Base$- IaaIDGS and 9 remain non-committal, with even chances of going either way. Under these circumstances the Republicans entertain not unjustifiable hopes that the Democratic divisions may be so equal,- ly balanced as to give the State [xx] LIaCOLV.Same very [xxxxxxx] Bell and Everett meetings have been held in different parts of the State, bat thus far that party does not exhibit much rank sad ale air en.

这个是原书质量比较差的:
[-]

看到这个,电脑就傻眼了,吐出来一堆这种东西:

‘ letz-1- rrk fit: 1′ . on its to Vc ,rt, cann into tlm yc H_ tcr,la, .n. ‘l l; , arc ti:( h of thc 1″,ats that to ltc rc: ,;. , I; ., l: rel!;n. tani., , ./olio, IJuteilu, . 1!’i./_ ;lr”n. Iiam! Jr.r. F’l,nr_.Z.._%i;;, ,, : rt-Irn: am/ tf.rri.:, t?m steamer as a tr nW r. Uu ,tin;t, c ac?1 1″,at firm/ a t;nn, accor.liu; to .t rn. ‘Cl.w r. wu ru lm:nui MistinW /y in u;th, -. ink ;:,k as to “what w ax 1111, :111(I vle:iR a of ;: (,am( into, mnr r-, tm if tlm wo r( uu.i n:’ of t?u : la?:Iv. \ ‘c : ol in thc , ucr:atic , , Tlau :; will h:aw tu-li.r \. ’1′Im yap?tts Il ,,n an,/ I, ,rr:l. r, (,t tf,is r:ity, start witli it, with lu:rtic: ol \ 1- e:l.k.

看得懂吗?反正我是看不懂。验证码的出现,就是为了改变这种情况的。这张图可以很好的解释它的工作原理:
[-]

1、我们首先扫描了一本有一大堆单词的书
2、我们找出不能被电脑识别的单词,这些单词有可能是不同的字体。当然了,损坏程度也与书籍年代以及扫描质量有关。
3、为了让这些验证码更安全,我们会让它更扭曲并且在上面加入横线。
4、一个验证码是有两个这样的单词组成的。

有了它的帮助,第二张图片上面的文字就会变得清楚多了(不过还是有一点小错误):

The New-York State yacht Squadron, on its annual cruise to Newport came into the harbor yesterday afternoon. The following are the names of the boats that came to anchor here: Jessie, gera loliv erelun Annie, Mannering, Julia, Bonita, Magic wut, Rambler, floumblie, Henrietta, Sea-Drift and Maria, with the steamer America as a tender. On anchoring each boat fired a gun, according to custom. The reports were heard distinctly in the city, causing considerable inquiry as to “what was up,” and quite a number of sanguine individuals came into our office to inquire if the guns were not annunciatory signals of the successful laying of the Atlantic Cable. We invariably replied in the negative. The squadron will leave to-day for Newport. The yachts Washington and buub r of this city, start with it, with parties of New Haven people.

有的人可能要问了,既然机器都看不明白那他怎么判断你输对了还是错了呢?我一开始也有这样的问题,Google是这样解释的:
两个验证码里面有一个是正确的,被人审核过的,而另一个是不正确的,机器读不出来的。当你把那个正确的输对以后我们就会默认另外一个也是对的,这样,你每输入一次验证码,就为人类的知识宝库里增加了一个单词。

了解和申请 reCAPTCHA :www.google.com/recaptcha


给这篇稿打赏,让译者更有动力
支付宝打赏 [x]
您的大名: 打赏金额:

4.2
赞一个 (92)

TOTAL COMMENTS: 49+1

  1. 利里诺斯
    @5 years ago
    1782564

    我知道有人专门挂这个,人工输入的话每天一百三十块呢。

    [178] XX [19] 回复 [0]
  2. 1782566

    有一种验证码 会加上现实照片 中的 数字

    [20] XX [1] 回复 [0]
  3. cysckz
    @5 years ago
    1782576

    涨姿势了,原来我还可以这样为社会做贡献啊!

    [20] XX [2] 回复 [0]
  4. wsxy162
    @5 years ago
    1782582

    原来两个只有一个是对的。

    [15] XX [7] 回复 [0]
  5. 1782584

    原来输对一个单词就可以了

    [30] XX [7] 回复 [0]
  6. 夜月熊
    @5 years ago
    1782590

    这个码太特么烦人了 每次都要抱着试试看的态度才能输入正确….

    [70] XX [3] 回复 [0]
  7. 什么墨鱼
    @5 years ago
    1782594

    我只知道输入这种验证码太反人类,尤其看了半天输入后提示验证码错误,前面填的东西就顺便被刷新掉。。

    [62] XX [2] 回复 [0]
  8. 功夫猫
    @5 years ago
    1782596

    尼玛,这玩意我当初输了十来次才有一次正确通过的…

    [56] XX [2] 回复 [0]
  9. rabbit_tale
    @5 years ago
    1782598

    那就是只把正确的那个输对,另一个没审核的随便输都行了咯?

    [55] XX [8] 回复 [0]
  10. 明天的隔夜饭
    @5 years ago
    1782604

    智能资源好有限啊。

  11. Octopus
    @5 years ago
    1782612

    之前我还想为什么要有两个单词 一个不就够了么

  12. 你这是自寻箱子
    @5 years ago
    1782614

    这篇文章是在说百度贴吧、新浪评论、搜狐社区那些稀奇古怪的验证码全都是不好识别的书上摘下来的吗?

    [9] XX [26] 回复 [0]
  13. Yorlereiyo
    @5 years ago
    1782620

    史上最难看懂的验证码

  14. 1782638

    是为OCR的识别库做了贡献吧 但是当这个OCR软件拿出来收费的时候我们的贡献又是怎么一会事

    [31] XX [19] 回复 [0]
  15. 暴走的木头
    @5 years ago
    1782642

    貌似国外很多成人网站用的都是这种验证码.原来我一直在为了人类文明记录补完做贡献,

    [23] XX [3] 回复 [0]
  16. 飯焦、
    @5 years ago
    1782648

    我能说我遇到这种验证码是因为下A片种子么、不过看完此篇罪恶感有点下降、毕竟我还是做了点贡献。

    [20] XX [0] 回复 [0]
  17. 麻辣干冰
    @5 years ago
    1782650

    要不,把假期作业题目做成验证码,写对答案才能注册?这为广大酷毙学生做贡献啊。。

    [10] XX [1] 回复 [0]
  18. 河孢子
    @5 years ago
    1782652

    靠,这反人类的验证码竟然是google提供的。

  19. 1782654

    如果有一个单词是机器都无法识别的,那那个朗读按钮是如何把它读出来的呢?

    [143] XX [13] 回复 [0]
  20. 真的金龙
    @5 years ago
    1782664

    怪不得只有一半能认出来

  21. 1782666

    从此以后第二个就再也打不对了………………谈何为人类的知识宝库里增加一个单词?

  22. 1782682

    工作人员把不能是别的单词照出来并制作效果让用户使用。。。。这么繁琐的过程都可以自己辨别N个单词了,何其蛋疼焉

    [5] XX [26] 回复 [0]
  23. 恋上你的床
    @5 years ago
    1782684

    @op903:
    估计是最为Google图书馆计划的一部分吧

  24. 侧面
    @5 years ago
    1782690

    @vodo: 朗读按钮读的不是你看到的吧。。。

  25. 1782694

    实际上扭曲的那个连输都不用输,不过看了这个后我决定改为全输了

  26. 1782744

    所以说大家都被骗了,oioi其实是个人工智能,错别字是他ai不够造成的识别错误。

    [24] XX [0] 回复 [0]
  27. 1782754

    @侧面 有道理,xx自己一下

  28. void_dump
    @5 years ago
    1782762

    试验了下感觉是一个单词几乎完全清晰,另一个则是清晰的地方输对就对、模糊/辨识不能百分百准确的地方如果没有输对也没关系,但是如果模糊单词连清晰的地方都没有输入对,就是真错了

  29. 啦啦啦
    @5 years ago
    1782774

    我觉得好伟大啊

  30. 毛线
    @5 years ago
    1782796

    以前国外网盘没挂的时候 用MYPONY某插件一次性输入大量reCAPTCHA
    睡一觉起来就有大量资源了
    如今望着那高高的墙
    唉。。。。

  31. 茱乐斯猫
    @5 years ago
    1782804

    怪不得从来认不出第二个单词是什么..

  32. 1782824

    煎蛋现在怎么变得这么火星了啊,唉,失望

  33. jazkim
    @5 years ago
    1782834

    所以说明显看不清的乱输就行了,千万不能告诉别人自己这么干过。

  34. 1782850

    结尾写的不够准确,不是说你把第二个单词随便写,系统就认为你把你随便写的都认为是对的。而是同一个单词会被发送到全球无数个验证码环节上,有很多人都会输入,最后系统就认为被输入次数最多的那个单词是正确的。当然,接下来可能也会有人工审核的环节。

    [33] XX [1] 回复 [0]
  35. zbqpig
    @5 years ago
    1782876

    @op903: 吐槽也要先查查资料再来,这个是谷歌数字图书馆计划的一部分,不是你想的用来开发OCR软件卖钱!

  36. dio异狼
    @5 years ago
    1782930

    这帖子回复好多啊。。。

  37. 灰小
    @5 years ago
    1782976

    输入上百次了,怎么我就每次都正确呢

  38. shallowlong
    @5 years ago
    1783016

    巨大的阴谋啊。。以前倒是没有往那方面想。。

  39. 阿达
    @5 years ago
    1783024

    最恶心人的东西。早点去死吧。

    [3] XX [14] 回复 [0]
  40. Drink-Me
    @5 years ago
    1783130

    @利里诺斯 怎么才能做这个啊?

  41. 路人
    @5 years ago
    1783150

    之前有看过用拼图作验证码的

  42. shitool
    @5 years ago
    1783190

    被人知道以后会不会很多人都乱输第二个码呢?

  43. 时间矢
    @5 years ago
    1783294

    其实不一定是第一个是验证过的第二个是待识别的这样的顺序啊……虽然我确实遇到过输完第一个,一不小心回车就通过验证了……

  44. 流云飞鸿
    @5 years ago
    1783520

    @vodo: 我去试了一下,那个朗读按钮并不是朗读当前文字内容,而是朗读一段新的内容,跟OCR无关,并且非常的模糊难以辨认

  45. 1783834

    @wsxy162: 也不要这样想,第二个可能有别人也已经输入过了,同样一个不会只让大家识别一次,因为还有可能是错误的,所以会给很多人识别,看大家都识别出来的,

  46. Ju2ender
    @5 years ago
    1786126

    这也是 Google 对人类的一个贡献

  47. valenr
    @5 years ago
    1787588

    因为GFW,所以有时候…这个google的验证码根本刷不出。
    然后干瞪眼

  48. 3318580

    Your post is valuable , thanks for the info http://myhealthandwellness.pen.io

    http://myhealthandwellness.pen.io

发表评论


24H最赞