电脑识别图像的极限在何处？

[-]

电脑一直都很擅长视觉识别。有时它们识别一系列图像中某个个体的能力能够与人类相媲美。但相似的结果是否说明了电脑能够模拟人类的视觉系统呢？回答这个问题或许可能会发现电脑系统比不上人类的地方。

《美国科学院院刊》发表了一篇论文提到了电脑和人类视觉系统的不同。

最大的差别可以总结为电脑没有人脑灵活，这同样也是语言识别系统所面临的问题：人类可以通过支离破碎的单词推测出一句话或者一段话的意思而电脑不能。同样在图像识别方面：人类可以可以破碎的线索拼凑出模糊的图像，而电脑却不行。

论文的作者使用一组模糊、复杂的图像来确定计算机视觉模块与人类大脑的差异。他们使用的图像被称为“最小识别结构”(MIRCs)都是太小或者分辨率较低的图像再缩小一点人们都无法识别出来。

他们将这一系大小逐渐减小分辨率逐渐降低的图片呈现给Amazon Mechanical Turk上成千上万的人，确定出能够被人识别出来的最后一个等级的图片。最后一个等级的图片被称为MIRC，比它等级更低的无法识别出来的被称为sub-MIRC。

人和计算机最开始以及最明显的比较是MIRCs和sub-MIRCs的识别。为了测试这一点，研究人员识别出了65%的MIRCs图片，而sub-MIRCs的正确识别率则低于20%。电脑模块的表现则不是很好，它们可以正确的分类出7%的MIRCs和2%的sub-MIRCs。这次的胜利属于人类。

人和电脑在失败开始时的方式也是十分不同的。对于人来说，MIRCs的识别在某个特定的水平上呈现悬崖式的跌落。最后识别出来的图像能被93%的人正确识别，仅仅在一个细小的改变之后，sub-MIRC的图像只能被3%的人识别出来。

而电脑没有显示出这种急剧式的下跌。作者写到:“没有哪一个模块完全复制出人类识别过程中的急剧下跌。”

在经过专业训练后，计算机在识别MIRCs方面表现的更好些，但准确性比人类相比还是较低。关于原因作者说道，这是因为电脑无法识别出图像中的独立部分，但人类可以。例如，在一张模糊的图像中有鹰的头和翅膀，人们可以通过模糊的图像指认出眼睛、嘴或翅膀。作者提到，这种识别是“超过目前神经网络模块的能力”。

总的来说，电脑在图像识别上能做的很好，但并不是十分接近人类处理相同任务时的过程。它们无法使用图像中的独立部分进行信息识别，利用最少信息识别图像上它们不如人类。

为了让计算机模块更好的工作可能需要了解我们的大脑。人类在进行图像识别时，可能先猜测图像是什么，然后再寻找特性验证或反驳最初的想法。如果是这样的话，这与计算机模块的工作程序完全不同。

本文译自 arstechnica，由 island 编辑发布。