@ 2015.07.10 , 09:00

用AI自动识别NSFW图片

CLÉMENT FARABET DEALS是纽约大学的一名人工智能专家,他编写了一个能够识别相片和视频中物体的系统,接着他就以该系统建立了一家小公司,他和他的合作伙伴将这家公司命名为Madbits,过了18个月,Twitter就过来将他们收购了。
[-]

Madbits并没有任何客户,除了他们自己之外,没人知道Twitter收购这家仅有5人的科技公司的战略意义。不过Alex Roetter(Twitter的项目经理)知道,因为这家公司一进入,他们就分配了一项任务给他们:建立一套系统,能够自动的识别社交网络上被广泛分享的NSFW图片。

当完成一次收购,即便计划很长远,但是我们需要先分配一些具体的活给被并入的公司,然后能够增进相互之间的了解,确保收购时正确的。所以,我们让他们识别NSWF图片。

一年前,这个AI就做完了。据Farabet称,如果调整系统以保证□□图片和不良图片的识别率在99%的话,系统对正常图片有7%左右的误判率。不过具体的参数怎么设定,得看Twitter如何定义NSFW,不过这表示Twitter和facebook这些大型社交网络开始准备关注泛滥的nsfw信息了。

[-]
去年WIRED就报道过,这些科技公司目前只能通过人工识别来筛选网络中大量的不良图片,包括:□□、性诱惑、种族主义、血腥等。Roetter说,Twitter之前的CrowdFlower就是针对这种业务提出的服务,不过完全依赖人工处理。如果使用AI系统,比如Farabet和其他工程师们制作的,他们就能非常轻松的处理掉网络中的铅笔图、塑料玩具和□□图片。这样既快捷也便宜,另外也缓解了从事这种工作的相关人员的精神压力和心理阴影(偷笑)

不过这仅仅是Farabet和他团队的第一个任务。为了解决NSFW的问题,他们去Twitter位于旧金山的办事处,那里有很多Twitter的机器学习专家。现在Whetlab(三周前收购的一家软件公司)也加入了他们。他们将联手打造一个被称为Twitter Cortex的AI核,目标是为全公司的机器学习任务提供服务。

比如:像用户推荐相关的兴趣达人;阻止垃圾邮件;有效推送tweets和广告内容,以及一些别的你所感兴趣的服务。虽然twitter目前也能做,但是这两家新收购的公司的产品能做的更好,而且好很多。Roetter说:公司目前以及准备部署Twitter Cortex来提高他们的广告系统了,该系统已经分析了之前的所有tweet预料信息。这样twitter就能够根据用户真正的兴趣推送广告了。

难点问题

深度学习算法能够通过分析大量的数据来学习目标任务,他们能够通过大量电影对白学习如果进行对话;也能通过你电脑上的大量图片识别出哪些是NSFW的。

自从受够了Madbits,Twitter就开始在自己的数据中心搭建大量的神经网络,除此之外还调用了很多图形处理单元的GPU。比如英伟达为渲染大型游戏的GPU群组,非常适合运行相关的机器学习算法。

Roetter和Farabet打算缩小他们算法中神经网络的规模,这要比google和facebook正在使用的小很多。并通过对twitter上的nsfw图片的标记成功率来检验算法。识别Twitter上的图片是个不小的挑战,因为他是一个实时的系统。

不过值得一提的是,现在的算法离目标还很远,而且判断一幅图片是否是□□的很难。因为twitter中还有不少的半裸的婴儿以及哺乳中的mama,这些可不是什么□□图片,不过你需要去教导电脑如何进行分辨。光是否是□□,不同的模式就有一大堆,更何况他们后期还得加入暴力以及其他内容的分辨。

就在不久前,google的相关应用就将黑人识别为大猩猩,经管这只是机器的错误,但是如何消除这种误判还有很长的路要走。

机器学习の机器学习

[-]
考虑目前twitter有约10w人在线处理nsfw图片,他们的这一举措确实是不错的,如果AI比较成熟,将解放这些人的饭碗,不过别的公司也在从事相关人工智能的开发。

在训练神经网络识别NSFW图片,我们需要一批人工标记过的图片。随着时间推移,神经网络网络对这种标记的图片需求会逐渐减少。最后神经网络会自己去寻找你都没见过的图片自行训练,我们就能够逐渐的降低对人力的需求。最终训练出的模型能够实时对图片进行分析

Whetlab帮助twitter加速了模型的学习过程。初始的时候会使用贝叶斯优化对神经网络进行调整。也就是说,他们使用机器学习来优化机器学习,换句话说,就是用一个神经网络A去分析神经网络B,然后对B进行优化。

这种技术具有非常有趣的放大效应,你可以通过自动化分配有限的资源和人力去快速组件一个处理流程。哈佛大学的计算机教授Adams这么形容这项技术。

虽然听起来像是空谈,不过这正是计算机科学的奇妙之处,这种递归思想的神经网络的牛b之处就在于,它能够随时改进。虽然目前工作的还不够好,不给过至少他们在大多数情况下能够识别出那些图片是NSFW的。

本文译自 wired,由 邻家乖蜀黍 编辑发布。

支付宝打赏 [x]
您的大名: 打赏金额:
赞一个 (14)