北大吴思教授：人脑的视觉识别有无穷多个解

作者 | 青暮

编辑 | 丛末

6月22日，北京智源大会举行了认知神经基础专题论坛，来自北京师范大学认知神经科学与学习国家重点实验室的毕彦超教授、北京大学心理与认知学院的方方教授、北京师范大学心理学部的刘嘉教授、北京大学计算机系的吴思教授、中国科学院自动化研究所的余山教授分别做了报告，共同探究认知神经科学能为AI带来什么启发。

第四位报告者是北京大学计算机系的吴思教授，演讲题目为《生物视觉和计算机视觉之间的对话》。

在报告中，吴思教授指出，生物的视觉识别机制和深度神经网络的图像识别机制有非常大的区别，生物的视觉识别涉及自上而下通路和自下而上通路的交互，而深度神经网络只模拟了第二种通路。自上而下的视觉通路涉及生物视觉感知的全局性、拓扑性、多解性等特点，尤其是理解图像时会面临数学上的无穷解问题，而这些特点或许就是深度神经网络下一步的改进方向。

以下是演讲全文，AI科技评论做了不改变原意的整理。

我的报告内容是生物视觉和计算机视觉研究的彼此影响，以此说明神经科学和人工智能研究的互动关系。这两个领域本质上都是在解开智能的黑箱，所以两者之间相互启发是非常自然的事情。

深度神经网络只模拟了部分生物视觉

深度神经网络是近年来人工智能兴起的引擎，已经非常成功，在一些大型数据集对物体的识别率甚至超过人类。但是，深度神经网络还面临很多问题。

第一，深度神经网络更多是模拟了大脑视皮层中的前馈、层级结构信息处理的方式。但是大脑的视觉系统比这复杂得多，所以在很多行为上人脑和深度神经网络有非常大的不同。在很多任务上，人的表现更加高明。

举个简单的例子。如下图所示，左边是一头熊，熊的局部信息被去除了，只剩下轮廓，而我们人类一眼就能认出这是一头熊。而右边的图则是把熊分成小块然后打乱，只保留局部的信息，全局信息则没有了。我们可以发现这些小块包含熊的眼睛、嘴巴、身体，但是很难认可右边的图是一头熊，深度神经网络却一眼认出右边的图是一头熊。

通过对比可以发现，深度学习网络的物体识别机制和人类有很大不同。人类能够获取物体的全局信息进行识别，而目前深度神经网络只能利用局部信息进行识别。

无法获取全局信息是深度学习特别是前馈神经网络面临的一个基本问题，这个基本问题其实很早就被意识到了。人工智能的先驱Marvin Minsky在1969年就指出，前馈神经网络很难做拓扑性质的识别。

拓扑学是研究几何图形或空间在连续改变形状后还能保持不变的一些性质的学科。它只考虑物体间的位置关系而不考虑它们的形状和大小。在拓扑学里，重要的拓扑性质包括连通性与紧致性。

全局信息很难用前馈网络获取，即使要获取其计算复杂度也呈指数增长。拓扑信息和全局信息的获取是深度学习网络面临的基本问题。

所以，我们有必要理解生物视觉系统如何获取全局信息。神经科学领域一直有一个广泛争论，就是人类识别物体到底是根据全局信息还是局部信息。这两种观点对应的典型例子是两种画派，如下图所示，左边的画属于印象主义，如果只看局部的话是看不清眼睛或鼻子的，但是只要从整体进行识别就能知道这是个男人，这是从全局信息进行物体识别的例子。右边的画属于立体主义，这幅画把每个局部信息特别放大，毕加索说画中是一位美丽少女，但是很多人都认为看不出来，因为不能用局部信息拼成整体信息，这是从局部信息进行物体识别的例子。

深度学习网络是通过聚合局部信息逐步构建复杂信息来识别物体的，相反，在认知神经科学领域有一个理论叫“逆向层次论”，这个理论指出，人类对物体的识别是从简单到复杂、从整体到局部。

“逆向层次论”和我们的生活经验相一致，如果一个人在我们视野中一晃而过，你马上会反应到这是个人，然后再识别对方的身份，这就是一种从整体到细节的识别过程。

我们从神经科学的角度来看人类视觉认知与机器学习的一个重大不同点。下图展示了一个实验，被试是盲视。盲视是指，意识层面“看不见”物体但却能“感知”到物体的存在。

大量实验表明，人类要看到或意识到物体，需要物体信息至少在视觉皮层V1中被接受到。假设V1受到损伤，就可能会产生盲视现象。这时还能感知到物体是因为皮层下通路还存在，皮层下通路是从视网膜直达上丘然后再到高级皮层的一条短路径。

科学家利用动物实验更好的证明了这一点。他们把老鼠放在笼子里，天花板上会呈现一个动态刺激，即一个小的光斑很快变大，这模仿了在自然环境中老鹰向老鼠俯冲下来时，老鼠视网膜接受到的光信号。这时候，老鼠本能的第一反应是装死。科学家发现，在上丘处通过操纵神经元反应可以让老鼠看到运动光斑后不再装死，或者即使没有运动光斑的出现老鼠都主动装死。这个实验表明本能的快速反应走皮层下通路，而没有走深度神经网络模拟的皮层上通路。

在上述老鼠将运动光斑当成老鹰的实验中，老鼠根本没有刻意去识别刺激是光斑还是老鹰，立刻装死。这是动物的本能反应，即老鼠没有做细节的特征提取也能识别运动模式。

我们参考这个例子，提出了一种新算法，在识别运动模式时不做特征提取。我们建立了一个模型，这个模型包含两个部分，下图左下方是外界输入，黑色圆圈中的网络表示“视网膜”。这里“视网膜”的计算很简单，它把运动模式投射到高维空间，使运动模式变成线性可分的，然后再输入到抉择网络。“视网膜”的神经元特别多，相当于一个库网络。我们不需要训练库网络和抉择网络，只需要训练库网络和抉择网络之间的连接。

关于抉择网络，我用两个神经元来举例解释一下，如下图所示，每个抉择神经元代表要识别的一类运动模式。这些神经元的动力学特别的慢，因为要识别运动模式，关键是要抓住输入的时间结构，不仅仅是空间结构。这些抉择神经元之间存在相互抑制，每个神经元通过库网络输入收集证据，如果证据支持自己编码的运动模式，这个神经元的反应就会抑制其它神经元的活动而最终胜出。

这个模型的计算本质是时空模式的识别，所以我们可以把这个模型推广，用来做步态识别。在这个任务中，人在屏幕前走1-2回，然后把步态输入到模型中，进行识别。这个模型的优点是可以小样本训练，只需要1-2回的数据就能马上学会一个人的步态特点。

生物视觉是一个动态交互的过程

我们介绍一个心理物理实验来展示由整体到局部的识别实际上是不可避免的。请大家看下图中呈现的图像，猜一猜是什么。

如果你过去没有见过这张图的话是肯定猜不出来的，所以我把图像的轮廓画出来。

现在你就能看出来图中是一头牛。如果把牛的轮廓去掉，你还是觉得图中是一头牛，因为这时你大脑中已经有了自上而下的牛的先验知识。但这只是其中一个答案。我也可以画一只手的轮廓，然后轮廓去掉，这时候你又会觉得图中是一只手，因为你有了自上而下的手的先验知识。

我还可以在图中画一条鱼，我相信这时候你又会觉得图中是一条鱼。

这个实验表明人类识别物体时，大脑皮层的自上而下的信号非常重要。

这个简单实验揭示了图像理解的一个深刻数学问题，即给定一副图像，它的解释理论上有无穷多个。注意图像理解跟物体识别不一样，图像理解涉及两个基本操作，一个是图像分割，一个是物体识别。

但两者的顺序是一个鸡生蛋或蛋生鸡的难悖论：给你一幅图像，没有合适的分割，如何做好识别；但另一方面，如果没有预先识别物体，又如何做合适的分割呢？从数学上来说，一幅图像有无穷多的分割和识别的方式，所以在数学上这是一个不适定的问题。无论是人类还是AI，图像理解时都面临这样的难题。

大脑解决这个问题的思路是一个“猜测与印证”的过程。当我们识别物体时，物体的图像信息快速传递到高级皮层，即通过所谓的快速通路，在高级皮层做出猜测。猜测结果再通过反馈连接，和新的输入交叉印证，如此反复进行后，才能识别物体。

我们在日常生活中很难意识到这个过程，因为在日常生活中，很多时候只需要一两个回合就能成功识别。但的确有的时候一个图像看得不太清楚，我们会盯着它左看右看，大脑内部可能就进行了信息的上传、下传的交替，不断地进行“猜测-印证-猜测-印证”，只要印证结果是否定的，这个过程就会一直进行下去，直到得到肯定的结果。

神经生物学充分证明人类大脑的识别机制确实如此。从解剖上来说，从高级视皮层到初级视皮层的反馈连接比前馈连接还要多，相比之下深度学习网络主要考虑的是前馈连接。电生理实验证据也表明，大脑对物体的识别先发生在高级视皮层，然后才发生在低级视皮层。

总的说来，生物视觉识别至少有两条通路，快速的通路对物体整体进行识别，其结果帮助慢速通路对物体局部信息的识别。

下面以我们最近的一个工作来介绍整体识别可能如何通过反馈提高局部识别。我们考虑对物体进行识别时，先对物体大类识别，然后根据大类信息帮助进行小类识别。比如我们看到一个图片，先识别这是动物，再识别这是猫，还可以进一步识别这是什么品种的猫。我们发现大类信息可以通过先正后负的反馈信息帮助小类信息识别。

第一步是正反馈（Push feedback），其作用是压制类间的噪音。假设高级脑区识别出物体是一只猫，就告诉低级脑区不要再处理狗的信息了。这是正反馈，增强猫的信息，压制狗的信息。第二步是负反馈（Pull feedback），其作用是压制类内的噪音，即在猫的信息中把猫共性平均值减去，把不同猫之间的细微差别放大。

总的说来，生物视觉的识别机制和深度神经网络的图像识别机制有非常大的区别，生物的视觉识别涉及自上而下通路和自下而上通路的交互，而深度神经网络只模拟了第二种通路。自上而下的视觉通路涉及生物视觉感知的全局性、拓扑性和多解性等特点，而这或许就是深度神经网络下一步的改进方向。认知神经科学和人工智能应该多互相对话、互相借鉴，按照过去的经验，这样做经常能带来惊喜。