天天看點

北大吳思教授:人腦的視覺識别有無窮多個解

作者 | 青 暮

編輯 | 叢 末

6月22日,北京智源大會舉行了認知神經基礎專題論壇,來自北京師範大學認知神經科學與學習國家重點實驗室的畢彥超教授、北京大學心理與認知學院的方方教授、北京師範大學心理學部的劉嘉教授、北京大學計算機系的吳思教授、中國科學院自動化研究所的餘山教授分别做了報告,共同探究認知神經科學能為AI帶來什麼啟發。

第四位報告者是北京大學計算機系的吳思教授,演講題目為《生物視覺和計算機視覺之間的對話》。

在報告中,吳思教授指出,生物的視覺識别機制和深度神經網絡的圖像識别機制有非常大的差別,生物的視覺識别涉及自上而下通路和自下而上通路的互動,而深度神經網絡隻模拟了第二種通路。自上而下的視覺通路涉及生物視覺感覺的全局性、拓撲性、多解性等特點,尤其是了解圖像時會面臨數學上的無窮解問題,而這些特點或許就是深度神經網絡下一步的改進方向。

北大吳思教授:人腦的視覺識别有無窮多個解

以下是演講全文,AI科技評論做了不改變原意的整理。

我的報告内容是生物視覺和計算機視覺研究的彼此影響,以此說明神經科學和人工智能研究的互動關系。這兩個領域本質上都是在解開智能的黑箱,是以兩者之間互相啟發是非常自然的事情。

北大吳思教授:人腦的視覺識别有無窮多個解

1

深度神經網絡隻模拟了部分生物視覺

深度神經網絡是近年來人工智能興起的引擎,已經非常成功,在一些大型資料集對物體的識别率甚至超過人類。但是,深度神經網絡還面臨很多問題。

第一,深度神經網絡更多是模拟了大腦視皮層中的前饋、層級結構資訊處理的方式。但是大腦的視覺系統比這複雜得多,是以在很多行為上人腦和深度神經網絡有非常大的不同。在很多任務上,人的表現更加高明。

北大吳思教授:人腦的視覺識别有無窮多個解

舉個簡單的例子。如下圖所示,左邊是一頭熊,熊的局部資訊被去除了,隻剩下輪廓,而我們人類一眼就能認出這是一頭熊。而右邊的圖則是把熊分成小塊然後打亂,隻保留局部的資訊,全局資訊則沒有了。我們可以發現這些小塊包含熊的眼睛、嘴巴、身體,但是很難認可右邊的圖是一頭熊,深度神經網絡卻一眼認出右邊的圖是一頭熊。

通過對比可以發現,深度學習網絡的物體識别機制和人類有很大不同。人類能夠擷取物體的全局資訊進行識别,而目前深度神經網絡隻能利用局部資訊進行識别。

北大吳思教授:人腦的視覺識别有無窮多個解

無法擷取全局資訊是深度學習特别是前饋神經網絡面臨的一個基本問題,這個基本問題其實很早就被意識到了。人工智能的先驅Marvin Minsky在1969年就指出,前饋神經網絡很難做拓撲性質的識别。

拓撲學是研究幾何圖形或空間在連續改變形狀後還能保持不變的一些性質的學科。它隻考慮物體間的位置關系而不考慮它們的形狀和大小。在拓撲學裡,重要的拓撲性質包括連通性與緊緻性。

全局資訊很難用前饋網絡擷取,即使要擷取其計算複雜度也呈指數增長。拓撲資訊和全局資訊的擷取是深度學習網絡面臨的基本問題。

北大吳思教授:人腦的視覺識别有無窮多個解

是以,我們有必要了解生物視覺系統如何擷取全局資訊。神經科學領域一直有一個廣泛争論,就是人類識别物體到底是根據全局資訊還是局部資訊。這兩種觀點對應的典型例子是兩種畫派,如下圖所示,左邊的畫屬于印象主義,如果隻看局部的話是看不清眼睛或鼻子的,但是隻要從整體進行識别就能知道這是個男人,這是從全局資訊進行物體識别的例子。右邊的畫屬于立體主義,這幅畫把每個局部資訊特别放大,畢加索說畫中是一位美麗少女,但是很多人都認為看不出來,因為不能用局部資訊拼成整體資訊,這是從局部資訊進行物體識别的例子。

北大吳思教授:人腦的視覺識别有無窮多個解

深度學習網絡是通過聚合局部資訊逐漸建構複雜資訊來識别物體的,相反,在認知神經科學領域有一個理論叫“逆向層次論”,這個理論指出,人類對物體的識别是從簡單到複雜、從整體到局部。

“逆向層次論”和我們的生活經驗相一緻,如果一個人在我們視野中一晃而過,你馬上會反應到這是個人,然後再識别對方的身份,這就是一種從整體到細節的識别過程。

北大吳思教授:人腦的視覺識别有無窮多個解

我們從神經科學的角度來看人類視覺認知與機器學習的一個重大不同點。下圖展示了一個實驗,被試是盲視。盲視是指,意識層面“看不見”物體但卻能“感覺”到物體的存在。

北大吳思教授:人腦的視覺識别有無窮多個解

大量實驗表明,人類要看到或意識到物體,需要物體資訊至少在視覺皮層V1中被接受到。假設V1受到損傷,就可能會産生盲視現象。這時還能感覺到物體是因為皮層下通路還存在,皮層下通路是從視網膜直達上丘然後再到進階皮層的一條短路徑。

北大吳思教授:人腦的視覺識别有無窮多個解

科學家利用動物實驗更好的證明了這一點。他們把老鼠放在籠子裡,天花闆上會呈現一個動态刺激,即一個小的光斑很快變大,這模仿了在自然環境中老鷹向老鼠俯沖下來時,老鼠視網膜接受到的光信号。這時候,老鼠本能的第一反應是裝死。科學家發現,在上丘處通過操縱神經元反應可以讓老鼠看到運動光斑後不再裝死,或者即使沒有運動光斑的出現老鼠都主動裝死。這個實驗表明本能的快速反應走皮層下通路,而沒有走深度神經網絡模拟的皮層上通路。

在上述老鼠将運動光斑當成老鷹的實驗中,老鼠根本沒有刻意去識别刺激是光斑還是老鷹,立刻裝死。這是動物的本能反應,即老鼠沒有做細節的特征提取也能識别運動模式。

我們參考這個例子,提出了一種新算法,在識别運動模式時不做特征提取。我們建立了一個模型,這個模型包含兩個部分,下圖左下方是外界輸入,黑色圓圈中的網絡表示“視網膜”。這裡“視網膜”的計算很簡單,它把運動模式投射到高維空間,使運動模式變成線性可分的,然後再輸入到抉擇網絡。“視網膜”的神經元特别多,相當于一個庫網絡。我們不需要訓練庫網絡和抉擇網絡,隻需要訓練庫網絡和抉擇網絡之間的連接配接。

北大吳思教授:人腦的視覺識别有無窮多個解

關于抉擇網絡,我用兩個神經元來舉例解釋一下,如下圖所示,每個抉擇神經元代表要識别的一類運動模式。這些神經元的動力學特别的慢,因為要識别運動模式,關鍵是要抓住輸入的時間結構,不僅僅是空間結構。這些抉擇神經元之間存在互相抑制,每個神經元通過庫網絡輸入收集證據,如果證據支援自己編碼的運動模式,這個神經元的反應就會抑制其它神經元的活動而最終勝出。

北大吳思教授:人腦的視覺識别有無窮多個解

這個模型的計算本質是時空模式的識别,是以我們可以把這個模型推廣,用來做步态識别。在這個任務中,人在螢幕前走1-2回,然後把步态輸入到模型中,進行識别。這個模型的優點是可以小樣本訓練,隻需要1-2回的資料就能馬上學會一個人的步态特點。

北大吳思教授:人腦的視覺識别有無窮多個解

2

生物視覺是一個動态互動的過程

我們介紹一個心理實體實驗來展示由整體到局部的識别實際上是不可避免的。請大家看下圖中呈現的圖像,猜一猜是什麼。

北大吳思教授:人腦的視覺識别有無窮多個解

如果你過去沒有見過這張圖的話是肯定猜不出來的,是以我把圖像的輪廓畫出來。

北大吳思教授:人腦的視覺識别有無窮多個解

現在你就能看出來圖中是一頭牛。如果把牛的輪廓去掉,你還是覺得圖中是一頭牛,因為這時你大腦中已經有了自上而下的牛的先驗知識。但這隻是其中一個答案。我也可以畫一隻手的輪廓,然後輪廓去掉,這時候你又會覺得圖中是一隻手,因為你有了自上而下的手的先驗知識。

北大吳思教授:人腦的視覺識别有無窮多個解

我還可以在圖中畫一條魚,我相信這時候你又會覺得圖中是一條魚。

北大吳思教授:人腦的視覺識别有無窮多個解

這個實驗表明人類識别物體時,大腦皮層的自上而下的信号非常重要。

這個簡單實驗揭示了圖像了解的一個深刻數學問題,即給定一副圖像,它的解釋理論上有無窮多個。注意圖像了解跟物體識别不一樣,圖像了解涉及兩個基本操作,一個是圖像分割,一個是物體識别。

北大吳思教授:人腦的視覺識别有無窮多個解

但兩者的順序是一個雞生蛋或蛋生雞的難悖論:給你一幅圖像,沒有合适的分割,如何做好識别;但另一方面,如果沒有預先識别物體,又如何做合适的分割呢?從數學上來說,一幅圖像有無窮多的分割和識别的方式,是以在數學上這是一個不适定的問題。無論是人類還是AI,圖像了解時都面臨這樣的難題。

大腦解決這個問題的思路是一個“猜測與印證”的過程。當我們識别物體時,物體的圖像資訊快速傳遞到進階皮層,即通過所謂的快速通路,在進階皮層做出猜測。猜測結果再通過回報連接配接,和新的輸入交叉印證,如此反複進行後,才能識别物體。

我們在日常生活中很難意識到這個過程,因為在日常生活中,很多時候隻需要一兩個回合就能成功識别。但的确有的時候一個圖像看得不太清楚,我們會盯着它左看右看,大腦内部可能就進行了資訊的上傳、下傳的交替,不斷地進行“猜測-印證-猜測-印證”,隻要印證結果是否定的,這個過程就會一直進行下去,直到得到肯定的結果。

神經生物學充分證明人類大腦的識别機制确實如此。從解剖上來說,從進階視皮層到初級視皮層的回報連接配接比前饋連接配接還要多,相比之下深度學習網絡主要考慮的是前饋連接配接。電生理實驗證據也表明,大腦對物體的識别先發生在進階視皮層,然後才發生在低級視皮層。

總的說來,生物視覺識别至少有兩條通路,快速的通路對物體整體進行識别,其結果幫助慢速通路對物體局部資訊的識别。

下面以我們最近的一個工作來介紹整體識别可能如何通過回報提高局部識别。我們考慮對物體進行識别時,先對物體大類識别,然後根據大類資訊幫助進行小類識别。比如我們看到一個圖檔,先識别這是動物,再識别這是貓,還可以進一步識别這是什麼品種的貓。我們發現大類資訊可以通過先正後負的回報資訊幫助小類資訊識别。

第一步是正回報(Push feedback),其作用是壓制類間的噪音。假設進階腦區識别出物體是一隻貓,就告訴低級腦區不要再處理狗的資訊了。這是正回報,增強貓的資訊,壓制狗的資訊。第二步是負回報(Pull feedback),其作用是壓制類内的噪音,即在貓的資訊中把貓共性平均值減去,把不同貓之間的細微差别放大。

北大吳思教授:人腦的視覺識别有無窮多個解

總的說來,生物視覺的識别機制和深度神經網絡的圖像識别機制有非常大的差別,生物的視覺識别涉及自上而下通路和自下而上通路的互動,而深度神經網絡隻模拟了第二種通路。自上而下的視覺通路涉及生物視覺感覺的全局性、拓撲性和多解性等特點,而這或許就是深度神經網絡下一步的改進方向。認知神經科學和人工智能應該多互相對話、互相借鑒,按照過去的經驗,這樣做經常能帶來驚喜。