当计算机视觉像人脑一样工作时，它的视觉也更接近人类

从相机到自动驾驶汽车，许多当今技术依赖于人工智能来从视觉信息中提取意义。如今的AI技术核心是人工神经网络，大多数时候我们可以信赖这些AI计算机视觉系统和我们看的一样，但有时它们会出错。麻省理工学院(MIT)和IBM的研究科学家表示，一种改进计算机视觉的方法是教人工神经网络模仿大脑生物神经网络处理视觉图像的方式。

由MIT教授James DiCarlo领导的研究人员，使一个计算机视觉模型通过训练它像人类和其他灵长类依赖的一个大脑区域来识别物体，从而变得更加稳健。今年5月，在国际学习表征会议上，研究团队报告称，当他们使用大脑下颞叶皮层(IT皮层)的神经活动模式来训练人工神经网络时，与缺乏这种神经训练的模型相比，人工神经网络更能稳健地识别图像中的物体。即使图像中包含了使任务变得更加困难的轻微失真，模型对图像的解释也更接近人类所看到的内容。

比较神经回路

用于计算机视觉的许多人工神经网络已经类似于处理视觉信息的人类和其他灵长类大脑的多层次神经回路。像大脑一样，它们使用类似神经元的单元共同处理信息。当它们为某项特定任务进行训练时，这些分层组件共同并逐步处理视觉信息以完成任务——例如确定图像中是熊、车还是树。

DiCarlo等人之前发现，当此类深度学习计算机视觉系统建立高效的方式解决视觉问题时，它们最终会生成类似于我们大脑处理视觉信息的神经回路。这意味着它们实际上成为了灵长类和人类视觉神经机制的科学模型。

这种相似性正帮助神经科学家加深对大脑的理解。通过展示视觉信息如何被处理以理解图像，计算模型为大脑如何完成相同任务提供了假设。随着开发人员不断改进计算机视觉模型，神经科学家也在自己的工作中找到了新的探索思路。

“随着视觉系统在现实世界中的表现越来越好，一些系统在其内部处理方式上变得更像人类。这从理解生物学的角度来说非常有用。”DiCarlo说，他同时也是大脑与认知科学教授以及MIT麦戈文大脑研究所的研究员。

更像大脑的AI

尽管其潜力令人期待，但计算机视觉系统还不是人类视觉的完美模型。DiCarlo猜测，改进计算机视觉的一种方法可能是将特定的类大脑特征融入这些模型中。

为测试这一想法，他和他的合作者构建了一个基于猴子下颞叶皮层视觉处理神经元的计算机视觉模型。这些数据是在猴子观察各种图像时收集的，IT皮层是灵长类动物腹侧视觉通路中负责识别物体的关键部分。更具体地说，哈佛大学研究生Joel Dapello、以及约克大学助理教授Kohitij Kar等研究人员要求人工神经网络模拟这些灵长类动物视觉处理神经元的行为，同时网络学习识别标准计算机视觉任务中的物体。

“实际上，我们对网络说，‘请解决这个标准的计算机视觉任务，但同时请让你内部某一层的功能尽可能接近相应生物神经层的功能’。”DiCarlo解释道。“我们要求它尽可能做好这两件事。”他表示，这迫使人工神经回路找到了与标准计算机视觉方法不同的处理视觉信息的方式。

在用生物数据训练人工模型后，DiCarlo的团队将其活动与一个使用标准计算机视觉方法、未经神经数据训练的类似大小的神经网络模型进行了比较。他们发现，新的生物对齐模型的IT层确实与IT神经数据更加匹配。

研究人员还发现，模型IT与另一只猴子收集的IT神经数据也更加匹配，即使该模型从未见过那只猴子的神经数据，也即使这种比较是基于该猴子的IT对新图像的反应评估的。这表明，团队的新“神经对齐”计算机模型可能是灵长类IT皮层神经生物功能的改进模型。

这是一项有趣的发现，因为此前尚不清楚目前能够从灵长类视觉系统中收集的神经数据是否足以直接指导模型开发。

在拥有了这个新计算机模型后，团队进一步询问“IT神经对齐”程序是否也会对模型的整体行为表现产生影响。果然，他们发现神经对齐的模型在行为上更像人类——它在识别物体时与人类表现出相似的成功和失败模式。也就是说，模型往往能够成功分类那些人类也能成功识别的图像，而在那些人类难以识别的图像上，模型也更容易出错。

对抗性攻击

研究团队还发现，神经对齐的模型在面对“对抗性攻击”时更具抵抗力。开发人员常用对抗性攻击来测试计算机视觉和AI系统的鲁棒性。在计算机视觉领域，对抗性攻击通过对图像引入小的失真来误导人工神经网络。

“假设你有一张模型识别为猫的图像，因为你了解模型的内部工作原理，所以你可以对图像进行非常微小的修改，使得模型突然认为它不再是猫。”DiCarlo解释道。

这些轻微的失真通常不会欺骗到人类，但计算机视觉模型在面对这些修改时往往会出错。一个人看着稍微扭曲的猫图像，仍会可靠地判断这是一只猫，但标准的计算机视觉模型可能会将猫误认为是狗，甚至是树。

“我们的大脑在处理图像时一定存在某些内部差异，使得我们的人类视觉对这类攻击更具抵抗力。”DiCarlo说道。团队确实发现，当他们让模型更加神经对齐时，它在面对对抗性攻击时变得更加稳健，能够在面对失真的图像时正确识别出更多物体。当然，模型依然可能被更强大的“攻击”欺骗，不过DiCarlo表示，人类在这种情况下也会被误导。他的团队目前正在探索人类在对抗性攻击下的抗干扰能力极限。

几年前，DiCarlo的团队发现，通过设计人工网络的第一层以模拟大脑中的早期视觉处理层，也可以提高模型抵御对抗性攻击的能力。下一步的关键是将这些方法结合起来——开发出在多个视觉处理层都与神经对齐的新模型。

这项新工作进一步证明了神经科学与计算机科学之间的思想交流能够推动两者领域的进展。“每个人都能从自然/生物智能与人工智能之间这种令人振奋的良性循环中获益。”DiCarlo说道，“在这种情况下，计算机视觉和AI研究人员获得了实现鲁棒性的新方法，而神经科学家和认知科学家则得到了更准确的人类视觉机制模型。”

本文译自 MIT，由 BALI 编辑发布。