@ 2015.07.10 , 09:00
22

用AI自动识别NSFW图片

CLÉMENT FARABET DEALS是纽约大学的一名人工智能专家,他编写了一个能够识别相片和视频中物体的系统,接着他就以该系统建立了一家小公司,他和他的合作伙伴将这家公司命名为Madbits,过了18个月,Twitter就过来将他们收购了。
[-]

Madbits并没有任何客户,除了他们自己之外,没人知道Twitter收购这家仅有5人的科技公司的战略意义。不过Alex Roetter(Twitter的项目经理)知道,因为这家公司一进入,他们就分配了一项任务给他们:建立一套系统,能够自动的识别社交网络上被广泛分享的NSFW图片。

当完成一次收购,即便计划很长远,但是我们需要先分配一些具体的活给被并入的公司,然后能够增进相互之间的了解,确保收购时正确的。所以,我们让他们识别NSWF图片。

一年前,这个AI就做完了。据Farabet称,如果调整系统以保证色情图片和不良图片的识别率在99%的话,系统对正常图片有7%左右的误判率。不过具体的参数怎么设定,得看Twitter如何定义NSFW,不过这表示Twitter和facebook这些大型社交网络开始准备关注泛滥的nsfw信息了。

[-]
去年WIRED就报道过,这些科技公司目前只能通过人工识别来筛选网络中大量的不良图片,包括:色情、性诱惑、种族主义、血腥等。Roetter说,Twitter之前的CrowdFlower就是针对这种业务提出的服务,不过完全依赖人工处理。如果使用AI系统,比如Farabet和其他工程师们制作的,他们就能非常轻松的处理掉网络中的铅笔图、塑料玩具和斩首图片。这样既快捷也便宜,另外也缓解了从事这种工作的相关人员的精神压力和心理阴影(偷笑)

不过这仅仅是Farabet和他团队的第一个任务。为了解决NSFW的问题,他们去Twitter位于旧金山的办事处,那里有很多Twitter的机器学习专家。现在Whetlab(三周前收购的一家软件公司)也加入了他们。他们将联手打造一个被称为Twitter Cortex的AI核,目标是为全公司的机器学习任务提供服务。

比如:像用户推荐相关的兴趣达人;阻止垃圾邮件;有效推送tweets和广告内容,以及一些别的你所感兴趣的服务。虽然twitter目前也能做,但是这两家新收购的公司的产品能做的更好,而且好很多。Roetter说:公司目前以及准备部署Twitter Cortex来提高他们的广告系统了,该系统已经分析了之前的所有tweet预料信息。这样twitter就能够根据用户真正的兴趣推送广告了。

难点问题

深度学习算法能够通过分析大量的数据来学习目标任务,他们能够通过大量电影对白学习如果进行对话;也能通过你电脑上的大量图片识别出哪些是NSFW的。

自从受够了Madbits,Twitter就开始在自己的数据中心搭建大量的神经网络,除此之外还调用了很多图形处理单元的GPU。比如英伟达为渲染大型游戏的GPU群组,非常适合运行相关的机器学习算法。

Roetter和Farabet打算缩小他们算法中神经网络的规模,这要比google和facebook正在使用的小很多。并通过对twitter上的nsfw图片的标记成功率来检验算法。识别Twitter上的图片是个不小的挑战,因为他是一个实时的系统。

不过值得一提的是,现在的算法离目标还很远,而且判断一幅图片是否是色情的很难。因为twitter中还有不少的半裸的婴儿以及哺乳中的mama,这些可不是什么色情图片,不过你需要去教导电脑如何进行分辨。光是否是色情,不同的模式就有一大堆,更何况他们后期还得加入暴力以及其他内容的分辨。

就在不久前,google的相关应用就将黑人识别为大猩猩,经管这只是机器的错误,但是如何消除这种误判还有很长的路要走。

机器学习の机器学习

[-]
考虑目前twitter有约10w人在线处理nsfw图片,他们的这一举措确实是不错的,如果AI比较成熟,将解放这些人的饭碗,不过别的公司也在从事相关人工智能的开发。

在训练神经网络识别NSFW图片,我们需要一批人工标记过的图片。随着时间推移,神经网络网络对这种标记的图片需求会逐渐减少。最后神经网络会自己去寻找你都没见过的图片自行训练,我们就能够逐渐的降低对人力的需求。最终训练出的模型能够实时对图片进行分析

Whetlab帮助twitter加速了模型的学习过程。初始的时候会使用贝叶斯优化对神经网络进行调整。也就是说,他们使用机器学习来优化机器学习,换句话说,就是用一个神经网络A去分析神经网络B,然后对B进行优化。

这种技术具有非常有趣的放大效应,你可以通过自动化分配有限的资源和人力去快速组件一个处理流程。哈佛大学的计算机教授Adams这么形容这项技术。

虽然听起来像是空谈,不过这正是计算机科学的奇妙之处,这种递归思想的神经网络的牛b之处就在于,它能够随时改进。虽然目前工作的还不够好,不给过至少他们在大多数情况下能够识别出那些图片是NSFW的。

本文译自 wired,由译者 邻家乖蜀黍 基于创作共用协议(BY-NC)发布。


给这篇稿打赏,让译者更有动力
支付宝打赏 [x]
您的大名: 打赏金额:

0.0
赞一个 (12)

TOTAL COMMENTS: 22+1

  1. 哎哟喂呀
    @3 years ago
    2858168

    加菲猫首当其冲

  2. Vanessa
    @3 years ago
    2858170

    职业鉴黄师

  3. 极黑糖浆
    @3 years ago
    2858175

    绿坝再出江湖

  4. 2858177

    求第一张大图的高清版 急 脱裤子等

  5. 2858179

    还好只是被推特收购了,这我就不担心了。毕竟我是上不去推特的。

  6. 放开那个畜生
    @3 years ago
    2858183

    画家说,我在twitter发的绘画教程怎么被屏蔽了?就因为那些铅笔吗?老子是画家,不用铅笔怎么画画。再说了,用阴茎作画的艺术家又不止我一个。

  7. 怪事
    @3 years ago
    2858186

    NSFW是什么缩写?

  8. 无敌的人
    @3 years ago
    2858187

    这样我会失业的

  9. 2858208

    @怪事: not safe for work,上班时候看不太安全

  10. 西贝铭
    @3 years ago
    2858223

    @yy: 我还奇怪呢,第一张图也用脱裤子等?逼格太高了….

  11. 但丁
    @3 years ago
    2858228

    所有的公眾篩選和過濾都是爲了私人珍藏!

  12. 胡安
    @3 years ago
    2858256

    老大哥在看着你

  13. 胡安
    @3 years ago
    2858260

    @怪事:
    No Sexy Funny Wife
    简而言之是家有黄脸婆

  14. 2858262

    照新玩法,还得能分辨露出的是男人的乳头还是女人的

  15. 小卡
    @3 years ago
    2858322

    色淫快把那些不过审的NSFW妹子图交出来!

  16. 你还没有女朋友吗
    @3 years ago
    2858340

    No scure for WIFI 不安全的老婆

  17. bestbenben
    @3 years ago
    2858425

    这不是绿坝吗…

  18. 莱丁丁
    @3 years ago
    2858502

    识别完之后用deepdream给nsfw图片加上一大堆眼镜啊猫猫狗狗的隐约幻想,

  19. 称呼太长
    @3 years ago
    2859066

    这个技术要是卖给gfw后果简直可怕

发表评论


24H最赞