天天看點

大腦如何學會搭乘地鐵?這對人工智能研究很重要

大腦如何學會搭乘地鐵?這對人工智能研究很重要
點選檢視原視訊

論文要點:

  • 人類通過分層方式進行規劃
  • 分層規劃的複雜性被編碼進了前額葉皮層尾側(caudal prefrontal cortex)
  • vmPFC以及海馬體編碼的是對某個目标狀态的接近程度
  • 可以從dm PFC解碼目前條件(context)
大腦如何學會搭乘地鐵?這對人工智能研究很重要

大腦非常神奇,但能力也有限。

當接近極限時,大腦也會當機。不過,大腦出色的地方之一就是非常善于處理這種極限狀況。比如,一些看似棘手的神經計算難題,可以通過快速發明新的算法加以解決。這些算法得到的結果就是未來的行動計劃,讓我們在極度複雜的情況下,遊刃有餘地實作目标。

比如,搭乘地鐵。

地鐵是由許多站點和地鐵線路組成的網絡,從A點到B點,如何搭乘地鐵?大腦需要計算。而且,随着站點、路線的不斷增加,計算複雜性會呈指數級增長。大腦如何運作以至于不讓自己因為情況的過度複雜而崩潰,并成功實作目标,正是人工智能和機器學習研究人員非常感興趣的地方。或許,這可以幫助他們設計出更為聰明的機器算法。

動機

通過制定和執行計劃,人類可以從事複雜行為,比如準備一杯咖啡或組織一次倫敦之旅。

什麼是計劃?

計劃,通常被描述為一種精神活動,旨在找到一張網際網路絡,用這張網絡來表示情節(episode)或狀态(states)。

不過,從計算角度來看,計劃是一種搜尋所有潛在未來狀态的活動。找出并評估這些未來可能的後果,我們穿越着一張由可能性組成的網絡,邁出一步,接下來就面臨着一些新的行動可能,以此類推。

是以,有觀點認為,未來狀态屬于決策樹,決策樹上,每一個節點就是一個決策點,每一條分支就是潛在可能的反響。計劃,相當于穿行于決策樹的軌迹,這是根據長期累積的結果做出的選擇。

這也是計算機解決圍棋問題的辦法:棋子落哪裡?計算所有可能性及其結果,然後選擇結果最好的。計算機算法已經成功地利用了這一政策,并在國際象棋和圍棋等棋盤遊戲中實作了專家級水準。比如,Alpha Go 的搜尋算法将蒙特卡洛模拟與評估、決策網絡綜合起來,将非常複雜的搜尋樹減少到可操作的規模,讓搜尋少了些蠻力,多了點想象,擊敗了世界頂級圍棋選手。

但是,自然環境遠比遊戲世界複雜。

怎樣在不産生過高的計算成本的前提下根據多種未來狀态組織行為?人類認知已經進化到了能夠應對這樣的難題。我們能夠在多個時間尺度上建構并執行規劃,比如,設想未來的職業道路并一步步實作目标。

此時,大腦内部情況如何?

根據現有的神經科學研究,當被要求完成這些多步驟任務時,前額皮層病變(PFC)患者往往會表現出無序的動作順序,不能達成特定的目标;海馬體病變患者也很難想象出未來狀态。功能性神經成像(functional neuroimaging)已經證明,人類的前額葉和邊緣結構會參與制定、執行計劃,特别是在空間環境中。

不過,目前為止,我們對這些大腦區域在規劃建構和執行過程中的計算機制仍知之甚少。Deep Mind 神經科學家團隊想要用更加直接明了的方式,「看見」大腦相關區域的情況。

2016年,研究成果 Neural Mechanisms of Hierarchical Planning in a Virtual SubwayNetwork 發表在重要神經科學刊物 Neuron 上。

實驗

研究人員借鑒了一個架構,這個架構以認知心理學為基礎,不過,最近也深受機器智能進步啟發。

該架構提出:可能狀态的空間可以分層地組織和表示成一系列的聚類(cluster)或着條件(context),進而能降低規劃的複雜性,以及在規劃建構和規劃執行的時候帶來計算效率的實質性增長。

不妨想一下地鐵交通圖。站點(狀态,state)被組織成線路(也就是條件,context)。

和在「扁平(flat)」的環境中規劃不同,在分層環境中,規劃行為不需要明确每一個連接配接目前位置與目标的狀态。毋甯說,隻要搞清楚目前的條件和通往下一個條件的一些要求就夠了,比如,從A到B, 需要搭乘1号線到某站,再轉乘2号線。

在機器學習中,可以轉接到新條件的狀态(地鐵轉乘站點)被視為一個「瓶頸(bottleneck)」,而且分層學習模型成功預測了:通路這些「瓶頸」會引發獨特的行為模式和神經活動。

于是,和 DeepMind 之前的研究方式一樣,研究人員用虛拟的導航遊戲作為解碼大腦計劃決策過程的工具。

大腦如何學會搭乘地鐵?這對人工智能研究很重要

他們仿照倫敦地鐵系統,作了一個虛拟的地鐵地圖,不同顔色的線路代表着更高一級的分層。22名受試接受了遊戲訓練,然後,通過按鍵的方式從一個站點移動到另一個站點,到達給定目的地。過程中,受試要接受fMRI檢測。

研究人員确定了兩個編碼了分層規劃表征成本的額葉皮質區,雙側運動前區前部(PMC)和 dmPFC。然後,通過分析行為和 fMRI(功能性磁共振成像)資料,他們想搞清楚,這些受試關注更多的是線路還站點?也就是說,人類的規劃方式到底是怎麼樣的?分層方式(根據線路或條件)還是扁平方式(根據站點或狀态)。

結果

最重要的發現:神經活動峰值對應着地鐵線路以及轉乘站,而與地鐵站數的變化沒有明顯關聯。這意味着,大腦正在根據條件(線路)進行計算,而不是詳盡搜尋站點之間所有可能路線。與此關聯的 dmPFC 正好以支援更高水準的認知功能著稱,比如計劃,結果也與運動前區皮層有關,它更多地參與到了執行真實或想象中行動。

可以說,在規劃過程中,人類是以分層方式編碼地鐵網絡和制定規劃的。

可以從dm PFC解碼目前條件(context)。

有兩個額葉區域觀察到過神經成本(neural cost):一是 dmPFC 區域,對決策困難(或沖突)敏感;另一個區域是運動前區皮質(PMC)和前額葉皮質邊界的側額葉。

當參與者在換乘站(即瓶頸),有機會換乘線路時,這兩個區域也都活躍了起來,這與 dmPFC 會響應子目标實作的研究發現是一緻的。

這些區域在瓶頸狀态(「換乘」站,參與者可以從一個背景切換到另一個背景)也有不同程度的活躍。通過多變量分析,我們發現 dmPFC 額外編碼或監控了目前背景(即目前正被使用的地鐵線路),這是執行分層規劃所需的關鍵數量。

另外,研究人員還發現,大腦中有一塊區域 vmPFC 與到達目的地的站點數量有很強的(正向)共變(covariation).

與前一發現相反,vmPFC以及海馬體編碼的是對某個目标狀态的接近程度。比如說,快接近地鐵1号線的目标站點時,這些區域會更加活躍。

vmPFC 與情節的未來思考有關,并被發現能夠追蹤涉及順序、互相依存選擇的決策中增長的預期回報。海馬體之前也被發現,能與與目标的接近度共變。

但是,海馬體和 vmPFC沒有分層信号的證據。

未來

論文作者之一,Google DeepMind 科學家Jan Balaguer ,目前正在牛津大學完成博士學業。他說,較之以前的研究成果,我們的研究方法更加直接明了地證明了大腦的确是以分層的方式進行計劃的。

「用機器學習方法解決難題以及現實生活中的問題,是我們的興趣所在。而且,我們常常可以從神經科學汲取靈感。」

「我們希望了解大腦是如何實作諸如分層結構這樣的事情,從中擷取設計更加聰明算法的靈感。在機器學習中,用于決策的分層表征或許有利,但也可能适得其反,這取決于最開始是否選擇實行了正确的分層。」

參考資料:

http://www.cell.com/neuron/fulltext/S0896-6273(16)30057-5 https://www.sciencedaily.com/releases/2016/05/160518125545.htm

繼續閱讀