中原標準時間10月8日下午5點45分,2024年諾貝爾實體學獎揭曉,獎項授予約翰·霍普菲爾德(John J. Hopfield)和傑弗裡·辛頓(Geoffrey E. Hinton),以表彰他們在人工神經網絡實作機器學習方面的基礎性發現和發明。
看到這一消息之後,很多人都會疑惑:機器學習和人工神經網絡确實是近幾年很火的應用,但這不應該是計算機領域的成就嗎?就算得獎也應該是數學和計算機相關的圖靈獎,為什麼會得諾貝爾實體學獎呢?(辛頓也正是2018年圖靈獎得主之一,由此成為曆史上第一位諾貝爾獎和圖靈獎雙料得主)
别急,筆者這就給大家來解釋一下,這兩位科學家是如何從實體學中汲取靈感,進而為人工神經網絡奠定基礎的。
2024年諾貝爾實體學獎得主John J. Hopfield(左)和 Geoffrey Hinton(右) (圖檔來源:瑞典皇家科學院)
機器如何能像人類一樣學習?
即使很小的孩子也可以指着不同的動物,自信地說出它是狗、貓還是松鼠。他們偶爾會弄錯,但很快他們就能做到幾乎每次都給出正确的答案。
即使沒有看到任何關于動物的圖表或解釋,孩子也可以學會辨認。在遇到每種類型的動物的幾個例子後,不同的類别就會在孩子的腦海中形成。
然而,像識别動物這種對人腦非常簡單的事情,計算機卻完全不擅長。這是因為,人腦會使用很多超出于邏輯之外的方式來認識或者模拟世界。
早在1943年,神經學家就提出了大腦細胞的協作模型。在他們的模型中,一個神經細胞通過感受來自其它神經細胞的信号,來決定它自己會産生什麼信号。
同時人們還發現,大腦的神經細胞是通過“有電”或者“沒電”的電信号來進行交流的,這本身是一種二進制信号。也就是說,大腦用許多細胞的二進制信号來形成了完整的圖像識别功能。
天然神經系統和人工神經網絡的相似性。關于人工神經網絡的理論在幾十年前就已形成,但當時人們并沒有找到實作它的方法(圖檔來源:瑞典皇家科學院)
計算機中使用的也是二進制信号,那麼可不可以利用計算機來模拟大腦的神經系統呢?這是人工神經網絡(artificial neural network)的思想雛形。雖然計算機學家認為這在理論上可行,卻完全找不到合适的實作方法。是以,關于人工神經網絡的工作在接下來的幾十年裡鮮有人問津。
神經網絡示意圖(圖檔來源:Pixabay)
水滴和神經網絡的共同點
如何解決這一難題?科學家在實體學中獲得了靈感。
物質中的每個分子每時每刻都在進行無規則的熱運動,但是許多分子集合起來卻能表現出整齊劃一的磁現象;單個水分子會做出雜亂的流動,但大量水分子集合起來卻可以形成整齊的漩渦流動。
這說明,許多實體體系中的集展現象雖然是建立在單個個體的基礎之上的,但是會産生完全超越個體的新現象,并且能夠穩定存在。
凝聚态實體學家霍普菲爾德由此産生一個大膽的聯想:神經網絡的本質,不也是和這些集展現象一樣嗎?單個神經元看似雜亂的行動,卻能夠産生穩定的圖像功能,這就是實體學中不規則的個體所形成的有規律的集展現象的翻版。如果能用規範實體集體的方程來規範我們的計算機二進制節點,那麼應該也能實作與大腦的神經網絡相似的功能。
于是,霍普菲爾德開始考慮用單個分子的自旋來代替神經元,然後用多個分子體系的總能量來代替神經系統所能産生的狀态。在實體學中,系統總是傾向于處于能量最低的狀态。他想通過理論計算的方式來證明,這些分子的自旋狀态之間互相影響,進而使整個體系處在能量最低态。
霍普菲爾德使用了兩個古老的方程,其中一個方程描述了原子的磁矩是如何對齊的,另一個用來描述磁鐵中的能量分布。在應用了這兩個方程之後,他建立一種聯想記憶模型,後來被稱為霍普菲爾德網絡(Hopfield neural network)。
霍普菲爾德網絡通過向節點輸入圖像(原始模型中隻有30個分子,是以這是一個隻有30個點的圖像)進行程式設計,這些節點被賦予1或0的值。然後使用能量公式調整網絡的連接配接,使這幾個分子體系獲得低能量。此時,就好比我們的大腦記住了一幅圖。
當向分子體系輸入另一個狀态時,科學家設定了一個逐個周遊節點并檢查網絡是否具有更低能量的規則。如果一個黑色像素變成白色後能量降低,那麼它就會改變顔色。這個過程會一直持續下去,直到能量無法降低,也就是達到了能量最低态。
當達到這一點時,分子體系會呈現出它最初儲存的原始圖像。這就好比,我們先記住一幅圖,然後再看另一幅圖,人腦可以清晰地指出這個圖與我們記住的圖之間有什麼不同。
簡單地說,霍普菲爾德訓練了一個由30個分子組成的體系,讓它們學會玩“大家來找茬”遊戲。
霍普菲爾德的模型示意圖。首先讓分子體系記住右下角的圖像(字母“J”)。此時,如果将分子體系的狀态改成右上角的圖,那麼每個分子會按照既定的規則更改自身的能量,最終使得整體重新回到右下角的圖像。(圖檔來源:瑞典皇家科學院)
如果你隻儲存一個模式,這可能看起來并不那麼顯著。也許你在想,為什麼你不隻是儲存圖像本身,并将其與正在測試的另一個圖像進行比較,但霍普菲爾德的模型的特殊之處在于,它不僅可以同時儲存幾幅圖檔,并且可以對圖檔進行區分。這就好比,我們的大腦可以同時記住好幾張圖,然後再判斷新看到的圖與記住的哪張圖類似。
雖然隻有30個點,但霍普菲爾德網絡成功模拟了大腦的工作模式。這是實體學家對實體現象進行抽象和重新運用得到的結論。
實體現象居然和生物現象有着某種相通的工作方式,不知道是自然界的默契,還是背後有更深刻的原理。
靜能記住,動能算數
正如前文所說,霍普菲爾德的神經網絡是具有記憶能力的。然而人的大腦除了定态的記憶功能之外,還有動态的計算功能。那麼這種計算功能如何實作呢?
當霍普菲爾德發表他的論文時,傑弗裡·辛頓正在美國匹茲堡的卡内基梅隆大學工作。此前,他曾在英國學習實驗心理學和人工智能,并思考機器能否學會以類似于人類的方式處理模式,為資訊分類和解釋找到自己的類别。
結合統計實體學的思想,辛頓和美國計算神經科學家特裡·謝澤諾斯基(Terry Sejnowski)創造了新的模型,為霍普菲爾德網絡賦予了計算功能。該模型被命名為玻爾茲曼機(Boltzmann machine)。
玻爾茲曼是十九世紀的統計實體學家,他提出的玻爾茲曼分布(Boltzmann distribution)描述了多個分子組成的系統。方程表明,雖然系統整體的狀态無法預測,但是可以算出各個狀态存在的機率,也就是說,某些狀态會以更高的機率出現。
統計實體學家路德維希·玻爾茲曼 (圖檔來源:Wikipedia)
玻爾茲曼分布是一種指數分布 (圖檔來源:Wikipedia)
辛頓把玻爾茲曼方程與霍普菲爾德的神經網絡模型結合起來,用統計實體學分析各個節點的行為所能導緻的最終體系狀态,并計算它們發生的機率。
玻爾茲曼機通常使用兩種不同類型的節點。資訊被饋送到一個稱為可見節點的組。其他節點形成一個隐藏層,隐藏節點的值和連接配接也貢獻整個網絡的能量。
當向網絡輸入數值時,玻爾茲曼機會按照既定的機率逐個改變每個節點的值,而這些機率由玻爾茲曼分布計算确定。當體系的能量無法繼續減少時,玻爾茲曼機就會輸出一個它認為系統最有可能呈現的狀态。
玻爾茲曼機和霍普菲爾德模型的不同在于,内部增加了隐藏節點,使得節點之間可以通過機率調節整個網絡的功能(圖檔來源:瑞典皇家科學院)
雖然最初的玻爾茲曼機中隻有30個節點,但它與如今擁有上萬億個節點的ChatGPT的工作原理是一樣的,都是根據有限的輸入,經過機率計算,輸出它認為最有可能出現的結果。這雖然看起來是數學和算法的突破,但給辛頓啟迪的,卻是來自十九世紀的實體學定律。
從0到1,再從1到1億
當然,相比起實體學的背景,人工神經網絡更廣為人知的是在機器學習和認知科學領域中的運用,後續的發展也超出了幾乎所有人的預料。
2006年,基于玻爾茲曼機對神經網絡的訓練,辛頓與團隊發表兩篇重磅論文,正式提出了深度學習的概念。深度學習促進了計算機視覺和文本處理能力的巨大進步,以ChatGPT為代表的大語言模型讓全世界領略到人工智能的強大能力,而其背後的工作原理正是基于深度學習算法和各種先進的神經網絡技術。
深度神經網絡是深度學習 (圖檔來源:Towards Data Science)
追本溯源,神經網絡通過模仿有意識的人類大腦創造的未來大廈,而其最初的靈感居然來自于無意識的實體體系内部的運動規律。也許從深度學習到大語言模型,人工智能已經實作了從1到1億的突破;但從實體學的統計現象聯想到神經網絡的天才想法,可能才是從0到1的跨越。無論1的後面有多少個0,我們總要銘記最前面的1給人類帶來的嶄新世界。
參考文獻 :
[1] J.J. Hopfield, Proc. Natl. Acad. Sci. USA 79, 2554 (1982).
[2] J.J. Hopfield, Proc. Natl. Acad. Sci. USA 81, 3088 (1984).
[3] J.J. Hopfield and D.W. Tank, Biol. Cybern. 52, 141 (1985).
[4] S.E. Fahlman, G.E. Hinton and T.J. Sejnowski. In Proceedings of the AAAI-83
conference, pp. 109-113 (1983).
[5] D.H. Ackley, G.E. Hinton and T.J. Sejnowski, Cogn. Sci. 9, 147 (1985).
作者:牧心