当我们睁开眼睛时,我们会立即看到周围的环境。大脑如何如此快速地形成这些丰富而详细的世界表征,是视觉研究中最大的未解之谜之一。
研究大脑的科学家试图通过使用计算机视觉模型来复制这种现象,但迄今为止,领先的模型只执行更简单的任务,例如在杂乱的背景中拾取物体或人脸。现在,由麻省理工学院认知科学家领导的团队开发了一个计算机模型,该模型捕捉了人类视觉系统从图像中快速生成详细场景描述的能力,并提供了一些关于大脑如何实现这一功能的见解。
乔希说:“我们在这项工作中试图做的是解释感知比仅仅给图像的所有部分贴上语义标签要丰富得多,并探索如何看待整个物理世界。”特南鲍姆是计算认知科学教授,也是计算机科学和人工智能实验室(CSAIL)和麻省理工学院大脑、思维和机器中心(CBMM)的成员。
新模型假设,当大脑接收到视觉输入时,它将快速执行一系列计算,从而逆转了计算机图形程序用来生成人脸或其他对象的2D表示的步骤。研究人员表示,这种被称为有效逆图(EIG)的模型,与非人类灵长类大脑面部选定区域的电记录也有很好的相关性,这表明灵长类视觉系统的组织方式几乎与计算机模型相同。
这篇论文的主要作者是前麻省理工学院博士后伊尔克耶尔德勒姆(Ilker Yildirim),他现在是耶鲁大学的心理学助理教授。论文今天发表在《科学进展》。洛克菲勒大学的神经科学和行为学教授特南鲍姆和温里奇弗赖瓦尔德是这项研究的资深作者。耶鲁大学研究生马里奥贝勒东也是一名作家。
反向图形
几十年来,对大脑视觉系统的研究已经非常详细地研究了如何将入射到视网膜上的光转换成内聚场景。这种理解有助于人工智能研究人员开发能够复制系统所有方面的计算机模型,例如识别人脸或其他物体。
特南鲍姆说:“视觉是我们对人类和其他动物最了解的大脑功能方面。”“目前,计算机视觉是AI最成功的领域之一。我们相信,机器现在可以很好地观察图片,很好地识别人脸,并检测其他种类的物体。”
然而,即使是这些复杂的人工智能系统也无法与人类视觉系统实现的功能相比。
他说:“我们的大脑不仅会检测那里的物体,而且不会识别和标记它们。”“我们看到了所有的形状、几何形状、表面和纹理。我们看到了一个非常富裕的世界。”
一个多世纪前,医生、物理学家和哲学家赫尔曼赫尔姆霍茨提出了这样一个理论,即大脑通过逆转图像形成过程来创造这些丰富的表征。他假设视觉系统包括一个图像生成器,例如,它将用于生成我们在梦中看到的面孔。研究人员说,反向运行发电机将使大脑从图像向后移动,并推断哪种脸或其他物体会产生图像。
然而,问题仍然存在:大脑如何如此快速地执行这个过程(称为逆图形)?科学家们试图创造一种能够执行这一任务的算法,但在过去,最好的系统需要许多循环的迭代处理,这比大脑创建你所看到的详细视觉表示所需的100到200毫秒要长得多。神经科学家认为,大脑的感知之所以能够如此迅速地进行,是因为它是通过前馈传递和神经处理的几个层级组织层来实现的。
麻省理工学院领导的团队着手构建一个特殊的深度神经网络模型,展示神经层次如何快速推断场景的基本特征——在这种情况下,是特定的人脸。与计算机视觉中使用的标准深度神经网络相反,后者是从表示图像中对象类别的标记数据中训练的,而研究人员的网络是通过反映大脑中能够表达面部表情的场景的内部表示的模型来训练的。看起来。
因此,他们的模型学会了逆转由计算机图形程序执行的生成人脸的步骤。这些图形程序从单个面部的三维表示开始,然后将其转换为二维图像(从特定的视点)。这些图像可以放在任何背景图像上。研究人员认为,当你做梦或联想到某人面部的心理图像时,大脑的视觉系统可能会执行类似的操作。
研究人员训练他们的深层神经网络以相反的方式执行这些步骤——也就是说,它从2D图像开始,然后添加纹理、曲率和光照等功能,以创建研究人员所说的“2.5D”。这些2.5D图像从特定角度指定面部的形状和颜色。然后将它们转换为独立于视点的3D表示。
标签:
免责声明:本文由用户上传,如有侵权请联系删除!