@ 2014.06.06 , 12:27
26

讽刺信息探测软件看来不太可能实现

[-]

几天前煎蛋曾经报道过美国特勤局正在物色可以在社交网络上探测到讽刺性信息的软件(相关蛋文:在社交网络上讽刺当局?小心探测软件!)。这么做会带来什么好处我们一眼就能看出:由于特勤局的天职就是调查任何对总统不利的威胁——社交网络上许多信息明显属于恶搞,如何从这些恶搞信息中筛选出真正的威胁信息会对特勤局相当有用。但问题是,排查工作对于电脑来说将会是一件非常艰巨的任务——很大程度上是因为人类都搞不定。

在普通对话中,人类可以根据细微的线索判断某人是否被讽刺挖苦。显然这些暗示讽刺信息的线索并不出现在文本中,这也解释了为什么许多笑话搬到短信或者Twitter上就不再好笑的原因。

今天的计算机科学家还做不到训练程序识别讽刺信息,这一点也不奇怪。2011年一份研究将Twitter一明确标记了“#XX黑”话题的话题部分删除后,将这些信息连同许多直有话直说,不拐弯抹角的正面/负面推文一起交给计算机分析。在最佳状态下,研究人员使用的程序的正确识别率只有65%——这一切还是在极高的受控条件下进行的。

[-]

芝加哥伊利诺伊大学计算机科学家,著有敏感信息分析(从文本中抽取情感语境方法)方面书籍的刘冰(音)表达了他的质疑,他认为目前还没有任何人能够很好地解决这个问题。“据我所知没有人研制出任何令人满意的算法或系统来探测讽刺性语句”刘冰在一封电子邮件中说。美国特勤局工作人员需要的这种软件的实现难度无异于推着巨石上山:“在谈论中插入政治讽刺十分常见,由于处理这些信息需要一些背景知识,而电脑在这方面做的并不是很好,所以要实现起来非常困难。”

我们还是祝特勤局好运。不单单是因为讽刺探测软件能够保护总统的安全,假若这种软件真的开始投入使用,好多奇怪的文字笑话就有解释了,再也不会出现看不懂高级黑的笑话而尴尬的时刻了。

[-]

本文译自 Nymag,由译者 王大发财 基于创作共用协议(BY-NC)发布。


给这篇稿打赏,让译者更有动力
支付宝打赏 [x]
您的大名: 打赏金额:

0.0
赞一个 (0)

TOTAL COMMENTS: 26+1

  1. 没什么
    @3 years ago
    2430279

    反讽什么的。。。

  2. 2430282

    大发财你又发这种“气烤碳烤”的文了

    [37] XX [2] 回复 [0]
  3. TommyS
    @3 years ago
    2430285

    所以到底是碳烤好还是气烤好?

    [24] XX [7] 回复 [0]
  4. redhusa
    @3 years ago
    2430287

    “美国圣地亚哥”“阿妹你看,上帝压狗”“舍妹遥相望 神佛覆犬灵”

    [69] XX [0] 回复 [0]
  5. 2430292

    @没什么:

    我爱中华民主自由

    [36] XX [1] 回复 [0]
  6. 2430294

    网友回帖: 你妈乐歌毕
    电脑解析: 你妈妈刚刚开心的唱完歌,无讽刺含义,一切正常

    [40] XX [4] 回复 [0]
  7. 纠结的武哥
    @3 years ago
    2430300

    想起“八点二十发”
    八点二十发 不让说就说八点十五加五 八点三十减十 …………………..
    全不让说就说 八点多点
    再不让说就说 你知道几点的
    ………….
    经过若干个类似“八点二十发’这样的事件后
    你根本找不到可以用的语言了

    新时代的文字狱诞生了!!

    [15] XX [0] 回复 [0]
  8. 又让我看行李
    @3 years ago
    2430305

    真的有了 第一天就因为超载阵亡

  9. 2430307

    其实他们只要设计一个高级的翻译机把英文翻译成中文就好了。

  10. 腻了
    @3 years ago
    2430317

    国际歌已经很久不唱了
    “从来就没有什么救世主,也不靠神仙和皇帝”

    [12] XX [0] 回复 [0]
  11. 哈哈
    @3 years ago
    2430318

    哈哈哈哈哈哈

  12. Hannes
    @3 years ago
    2430320

    大发财已经将自攻自受当作抗衡千里之外交配的法宝了吗!

  13. 2430323

    让电脑探测讽刺语言基本上就跟让谢耳朵探测讽刺语言一样
    毕竟构造和运行原理都差不多

  14. 2430350

    族论坛换电池哥魅:美帝的特勤局如此无能,为什么不到朝鲜引进些专业人才与专业的狗?朝鲜国内反对三胖的人可是都被犬决了。果然人太依赖高科技就连狗都不如啊。

  15. 2430406

    骗小白呢, 虽然直接从字面推断你是讽刺技能输出中很难,但通过大数据分析,你每天都上什么网站,给什么内容顶赞之类的却很容易,人类行为是有模式可言的,机器不懂,但可以通过无时无刻的收集数据,把目标锁定在一个较高的概率内还是轻松做到的。

    就算是你用的输入法,都会有常用词频调整的功能~ 1000个常常访问翻墙服务器的ip中,逮到100个还是有机会的~ google 也一样能分析你这ip段常用的搜索关键字,就算你想跑路,以你手持的现金和资产,可以到达的地区或者路径交通方式等等都是有局限的,因为人始终是群居动物,行为模式是有相对固定的模式,而这种模式让人无法超越无时无刻在收集数据的机器。

  16. 2430459

    @vsz: 恭喜你,你已经被北邮大提前录取了,请你背着小包裹快快乐乐的去报到吧。

  17. 2430475

    2011年4月22日,有感于轰动一时的李庄“漏罪”案撤回起诉的消息,方XX在腾讯微博发了一个帖子:“这次就是勃起来屙了一坨屎叫王立军吃,王立军端给检察院,检察院端给法院,法院叫李庄吃,李庄原律师说他不饿,谁屙的谁吃,这不退给王博士了,他主子屙的他不吃谁吃!”

    没想到几个小时后,警察便打杀上门来,当时这个帖子才被转发3次。

  18. 2430503

    族论坛换电池哥魅:@cj: 狗腿子吃。

  19. 2430508

    @603: 分析你这种句子其实是比较简单的,我都能写出分析器分析类似这种句子。我觉得说不可能更像是给大家宽心的,我承认人类语言博大精深米计算机的确并不能完全探测分析出来你的真实意图,但是想把绝大多数都分析出来并不是什么太难的事情——-研究生期间学词句法分析的计算机从业者飘过。

  20. 牛奶妹子
    @3 years ago
    2430514

    一看就是王大发财发的。自己推翻自己。

  21. 十一哥
    @3 years ago
    2430683

    大数据时代…

  22. 2430711

    现在的所谓数据分析就是靠统计,计算机根本就不理解那是什么意思,通俗的讲,那些结果其实是猜的~

  23. 匿名
    @3 years ago
    2430778

    @vsz: 作为“大数据”从业者,我认为大家普遍太看得起计算机哪怕说集群的计算能力了…无特定目标的实时全网分析现在还是差得远啊。所以我猜测最有效的恐怕还是简单粗暴的关键词检测+人肉识别,逮着几个算几个。不知道朝中的专业人士是不是真这么做的,他们要是有更好的方法的话引入工业界就牛X了!!

  24. 2430781

    这种东西不是很多年前就有了么?舆x情监x测的软件,这还只是谁都能下载使用的小玩意
    真正nb的大数据分析和各个网关服务器加上伟大x的x墙x金盾之类的东西结合起来到底有多强大

  25. 刻骨铭SUN
    @3 years ago
    2430843

    其实说来说去,到最后一段才开门见山。。。。。。

  26. LUXTOS
    @3 years ago
    2432183

    我觉得做出来是可能的,人家不愿意帮你做而已

发表评论


24H最赞