編輯:編輯部
【新智元導讀】誰能想到,昨天的故事又重演了。2024諾貝爾化學獎,頒給了DeepMind的Demis Hassabis和John M. Jumper和華盛頓大學的David Baker。就在2023年,Hassabis和Jumper獲得了「諾獎風向标」拉斯克大獎,今天果然靈驗了。
就在剛剛,2024諾貝爾化學獎揭曉。
今年的獎項,一半授予美國華盛頓大學的David Baker,以表彰其在計算蛋白質設計方面的貢獻。
另一半則授予DeppMind的Demis Hassabis和John M. Jumper,以表彰其在蛋白質結構預測方面的貢獻。
他們三位都緻力于AI蛋白質的研究。
沒錯,萬物皆可AI,今年的諾獎是妥妥的AI年
根據委員會的官方公告,今年的諾貝爾化學獎聚焦蛋白質。
David Baker成功完成了幾乎不可能的驚人成就:建構全新種類的蛋白質。
而Demis Hassabis和John Jumper則在2020年開發了AlphaFold 2,解決了人類50年來的夢想:預測蛋白質的複雜結構。
我們現在能夠預測蛋白質結構并設計自己的蛋白質,這一突破為人類帶來了巨大的益處,開啟了無限可能。
沒想到,我們曾經的預言成真了。
補充閱讀:預定諾獎?DeepMind創始人斬獲「諾獎風向标」拉斯克獎,AlphaFold成「AI for Science」标杆
拉斯克大獎再次證明了自己「獲獎風向标」的地位。
Hassabis也度過了傳奇的一天:白天祝福好朋友得諾獎,晚上自己親自得諾獎。
紐約大學助理教授謝賽甯回憶稱,在DeepMind實習期間,Hassabis被問及公司目标時,便提到了獲得多個諾貝爾獎。
而如今,這個使命已經實作了一部分。
Demis Hassabis
Demis Hassabis 1976年出生于英國。
4歲起,他就是國際象棋神通,在13歲時達到了大師标準。
1997年,他以雙第一的成績畢業于劍橋大學,在倫敦大學學院完成了認知神經科學博士學位,又在MIT和哈佛攻讀博士後。
2010年,他和Shane Legg共同創辦DeepMind,擔任CEO。
2023年,DeepMind和谷歌大腦合并後,Hassabis擔任谷歌DeepMind團隊CEO。
關于DeepMind的誕生還有一段傳奇故事:作為14歲以下世界上排名第二的象棋選手,Hassabis在一次聚會上成功征服了Peter Thiel,獲得了225萬美元風投,成立了DeepMind。
補充閱讀:OpenAI工程師曝出開發ChatGPT隻用8天!長文揭秘谷歌DeepMind等矽谷頂流如何誕生
John M. Jumper
John Jumper是DeepMind的美國進階研究科學家。
2017年,他在芝加哥大學獲得博士學位。
作為一作,他和同僚共同建立了AlphaFold。
2021年,他被Nature列為年度榜單十大「重要人物」之一。
David Baker
David Baker 1962年出生于華盛頓州西雅圖。
1984年獲得哈佛學士學位,1989年獲得UC伯克利生物化學博士學位。
他是蛋白質設計領域的「鼻祖級」人物,設計出了比AlphaFold更早的蛋白質結構設計算法RoseTTAFold,時間上比DeepMind更早。
作為美國國家科學院院士、華盛頓大學蛋白質設計研究所所長,他聯合創辦了十幾家生物技術公司,并入選《時代》 2024年首屆100名最具影響力的健康人物名單。
他們通過計算和AI揭示了蛋白質的秘密
支撐生命體各種活動的,是體内旺盛且多樣的化學反應,而蛋白質發揮了關鍵作用。
蛋白質通常由20種氨基酸構成,理論上,這些氨基酸可以以無限多種方式組合。以存儲在DNA中的資訊作為藍圖,這些氨基酸在我們的細胞中被連接配接在一起形成長鍊。
接下來,蛋白質的奇妙之處就展現出來了:氨基酸鍊會扭曲并折疊成一個獨特的,有時甚至是獨一無二的三維結構,正是這種結構賦予了蛋白質的生物功能。
蛋白質可由十幾個到幾千個氨基酸組成,氨基酸鍊會折疊成特定的三維結構,而這種結構決定了蛋白質的功能
有些蛋白質成為生命體的基本單元,可以建構肌肉、角或羽毛,而其他的則可能成為激素或抗體。
其中許多蛋白質會形成酶,以驚人的精确度驅動生命的各種化學反應。位于細胞表面的蛋白質同樣重要,它們充當細胞與其周圍環境之間的信号傳遞通道。
蛋白質的首批圖像
自19世紀以來,化學家們就知道蛋白質對生命過程至關重要,但直到20世紀50年代,化學工具才足夠精确,研究人員才能開始更詳細地探索蛋白質。
劍橋研究人員John Kendrew和Max Perutz在50年代末取得了突破性發現,他們成功使用一種叫做X射線晶體學(X-ray crystallography)的方法首次呈現出蛋白質的三維模型。
因為這一發現,他們于1962年獲得了諾貝爾化學獎。
此後,研究人員主要使用X射線晶體成像技術,加上付出了大量努力,成功繪制出約20萬種不同蛋白質的圖像,才為今年的諾貝爾化學獎奠定了基礎。
蛋白質折疊之謎:一個50年的挑戰
美國科學家Christian Anfinsen做出了另一項早期重要發現。
通過各種化學技巧,他成功地使一個現有蛋白質展開,然後再次折疊起來。有趣的是,蛋白質每次都呈現出完全相同的形狀。
1961年,他得出結論,蛋白質的三維結構完全由氨基酸序列決定,這項發現使他在1972年獲得了諾貝爾化學獎。
然而,Anfinsen的邏輯中包含一個悖論,另一位美國科學家Cyrus Levinthal在1969年指出了這一點。
Levinthal計算出,即使一個蛋白質隻由100個氨基酸組成,理論上該蛋白質也可以呈現出至少10^47種不同的三維結構。
如果氨基酸鍊是随機折疊的,那麼找到正确的蛋白質結構所需的時間将比宇宙的年齡還要長。然而在細胞中,這個過程隻需要幾毫秒。那麼,氨基酸鍊究竟是如何折疊的?
Anfinsen的發現和Levinthal的質疑共同指向了一個事實:氨基酸折疊是一個預定的過程。更重要的是,關于蛋白質如何折疊的所有資訊都必須存在于氨基酸序列中。
生物化學領域新聖杯
上述見解導緻了另一個決定性的認識——如果化學家得知了蛋白質的氨基酸序列,他們就應該能夠預測蛋白質的三維結構。
這是一個令人興奮的想法。如果成功,他們将不再需要使用複雜的X射線晶體學技術,并且可以大大節省時間;此外,還能夠為所有X射線晶體學不适用的蛋白質生成結構。
這些邏輯和結論引出了生物化學領域的新聖杯:預測問題。
為了促進該領域的快速發展,1994年研究人員啟動了一個名為「蛋白質結構預測關鍵評估」(CASP)的項目,之後發展成為一項競賽,每兩年舉辦一次。
在CASP競賽中,來自世界各地的研究人員都可以拿到剛剛一批蛋白質的氨基酸序列。這些蛋白質的結構剛剛被測定出來,但對參賽者嚴格保密。他們需要根據已知的氨基酸序列來預測蛋白質結構。
CASP吸引了許多研究人員,但事實證明,蛋白質結構預測是相當困難的,多年來進展十分緩慢,預測結構和真實結構之間的異質性幾乎沒有任何改善。
直到2018年,突破才終于出現,一位集國際象棋大師、神經科學專家和人工智能先驅于一身的人物進入了這個領域,為這個長期存在的難題帶來了全新的視角。
這個人,就是DeepMind聯合創始人Demis Hassabis。
AlphaGo大師挑戰蛋白質奧林匹克
Demis Hassabis無愧于當今AI深度學習的一大元老了。
他從4歲開始下國際象棋,13歲就達到了大師水準。在青少年時期,他便開始了程式員和遊戲開發者的職業生涯。
随後,Hassabis開始探索AI,并涉足神經科學,做出了幾項革命性的發現。
他堅定地認為,人工智能神經網絡與人腦密不可分。是以,他決定利用自己所學的大腦知識,來開發AI神經網絡。
2010年,Hassabis與兒時的好友Mustafa Suleyman、以及研究同僚Shane Legg共同在英國創立了DeepMind。
當時,他們創造了一個以類人方式學習玩棋盤遊戲AI神經網絡,一舉成名。
這個神經網絡可以接入一個外部的存儲器,就像一個傳統的圖靈機一樣,使得一台電腦可以模拟人類的短期記憶。
2014年,DeepMind被谷歌正式收購。
就在同年,Hassabis帶領團隊拿下了被許多人視為AI領域的聖杯。
他們開發出的AlphaGo算法擊敗了世界圍棋冠軍。最為人熟知的是,2016年AlphaGo在與著名棋手李世石交手中,拔得頭籌。
随之,進化版的AlphaGo再次戰勝了人類選手。
然而,對Hassabis來說,圍棋并不是終極目标,而是開發出更好的AI的手段。
在這場勝利之後,他們準備去迎接對人類更為重要的挑戰——
是以,在2018年,Hassabis和團隊報名參加了第十三屆蛋白質結構預測關鍵評估(CASP)競賽。
Hassabis的AI模型意外獲勝
過去幾年裡,CASP參賽的研究者在蛋白結構預測上,最多能實作40%的準确率。
Hassabis團隊拿着AlphaFold去參賽後,竟達到了60%準确率。
是以,在CASP競賽首次亮相的AlphaFold,拿下了2018年的冠軍。
初代AlphaFold為43個模組化領域中的24個建立了高精度結構。這一結果,足以讓許多人為之震驚。
但對于他們來說,AlphaFold的潛力還遠遠沒有被開發。
若要真正取得成功,蛋白質預測結構必須達到90%準确率。
由此,Hassabis和團隊一起繼續埋頭深耕。
但是,無論他們如何努力,都無法突破技術瓶頸。
彼時的團隊成員,早已疲憊不堪。
驚喜的是,一位剛剛入職的員工John Jumper提出了對AlphaFold改進的突破性想法。
John Jumper:迎接生物化學的「重大挑戰」
作為AlphaFold的第一作者,DeepMind的進階研究科學家John Jumper曾在2021年被評為Nature年度十大人物。
曾經,對宇宙的着迷促使他開始學習實體學和數學。
但2008年,當他開始在一家利用超算模拟蛋白質及其動力學的公司工作時,開始意識到實體學知識可以幫助解決醫學問題。
2011年,攻讀理論實體學博士學位時,為了節省算力,他開始開發更簡單、巧妙的方法,來模拟蛋白質動力學。
2017年,他完成了博士學位,聽說谷歌DeepMind在秘密開發預測蛋白質的技術後,他發送了求職申請。
因為在蛋白質模拟方面的經驗,他對如何改進AlphaFold有着創新性的想法,是以在團隊遇到瓶頸後,他獲得了晉升。
随後,他和Hassabis共同上司了開發AlphaFold 2的工作。
革新後的AI模型取得驚人結果
新版本的AlphaFold2,融入了Jumper對蛋白質的深入認知。
團隊還開始使用Transformer,因而比以前更靈活地在海量資料中找到模式,有效地确定為了特定目标應該關注什麼。
訓練AlphaFold 2時,他們用了所有已知蛋白質結構和氨基酸序列資料庫中的大量資訊,而AlphaFold 2在第十四屆CASP競賽中表現優異。
當CASP的組織者在2020年評估結果時,他們意識到:生物化學50年來的挑戰已經結束。
在大多數情況下,AlphaFold2的表現幾乎與X射線晶體學一樣好,這實在令人驚歎。
AlphaFold2的工作原理
一本關于細胞的教科書改變了David Baker的人生軌迹
David Baker最初進入哈佛大學時,選擇了哲學和社會科學。
然而,在一門進化生物學課程中,他偶然接觸到了經典教科書《Molecular Biology of the Cell》的第一版。正是
這本書,徹底改變了他的人生方向。
自此,他開始探索細胞生物學,最終對蛋白質結構産生了濃厚興趣。
1993年,Baker進入華盛頓大學擔任研究組長,開始直面生物化學領域的這個「重大挑戰」。
通過一系列巧妙的實驗,他開始探索蛋白質如何折疊。90年代末,他試着開發一款能預測蛋白質結構的軟體,由此Rosetta誕生。
在1998年,Bake使用Rosetta首次參加CASP競賽,表現異常出色。
這也啟發了他的創新性想法:反向使用這個軟體。
如果能輸入所需的蛋白質結構,獲得氨基酸序列的建議,就能創造全新的蛋白質,而非僅僅将氨基酸序列輸入Rosetta,得到蛋白質結構。
Baker:從頭設計蛋白質的先驅
20世紀90年代末,蛋白質設計領域開始蓬勃發展。
在許多情況下,研究人員對現有蛋白質進行定向改造,使它們能夠執行新的功能,比如降解環境污染物或在化學制造業中充當催化劑。
然而,天然蛋白質的功能範圍畢竟是有限的。為了突破這一局限性,增加蛋白質的潛力,Baker的研究小組提出了一個大膽的想法:從頭設計全新的蛋白質。
這種想法從何而來?Baker曾經有一個形象的比喻:
「如果你想造一架飛機,你不會從改造一隻鳥開始;相反,你會深入了解空氣動力學的基本原理,然後基于這些原理建構全新的飛行器。」
Baker的這種從零開始的蛋白質設計方法,開創了蛋白質工程領域的新紀元,為未來的生物技術和醫學應用提供了無限可能。
獨特蛋白質的誕生:從頭設計的突破
建構全新蛋白質,被稱為「從頭設計」(de novo design)。
Baker團隊首先繪制了一種全新結構的蛋白質,然後利用名為Rosetta的軟體計算出能夠産生所需蛋白質的氨基酸序列。
Rosetta先搜尋資料庫中所有已知的蛋白質結構,尋找與目标結構相似的短蛋白質片段;随後,軟體利用蛋白質能量圖的基本知識,優化這些片段,并提出了最終的氨基酸序列。
為了驗證軟體的效果,Baker的研究小組将設計的氨基酸序列對應的基因引入到細菌中,使其産生目标蛋白質。随後,他們使用X射線晶體學技術确定了蛋白質的實際結構。
結果令人振奮:Rosetta确實成功建構了預期的蛋白質。這個觀察到的名為Top7的蛋白質結構幾乎完全符合他們的設計,标志着蛋白質工程領域的重大突破。
Top7——第一個與所有已知現有蛋白質完全不同的蛋白質
Baker實驗室的驚人創造
對于蛋白質設計領域的研究人員來說,Top7的出現無疑是一個裡程碑。
此前,從頭設計蛋白質的嘗試僅限于模仿自然界已存在的結構。而Top7的獨特結構在自然界中前所未見。
更令人驚歎的是,它由93個氨基酸組成,比之前使用從頭設計方法生産的任何蛋白質都要大得多,這相當于在分子尺度上建構了一個微型的「蛋白質大廈」。
Baker于2003年發表了這一開創性發現,并慷慨地公開了Rosetta的源代碼,這一舉動極大地推動了全球研究社群對該軟體的持續開發和創新應用,為蛋白質設計領域注入了新的活力。
随着這些突破性成果的湧現,2024年諾貝爾化學獎的輪廓已經初現。
曾經需要數年的工作現在隻需幾分鐘
當Demis Hassabis和John Jumper确認AI蛋白質結構預測工具AlphaFold2真的有效時,便開始了所有人類蛋白質結構的計算。
随後,他們預測了研究人員在探索地球生物多樣性過程中,發現的幾乎所有2億種蛋白質的結構。
不僅如此,谷歌DeepMind還公開了AlphaFold2的代碼,任何人都可以通路。
如今,這個AI模型已成為研究人員的寶貴資源。截至2024年10月,已有來自190個國家的超過200萬名使用者使用了AlphaFold2。
以前,獲得一個蛋白質結構通常需要數年時間,而且并不總是能成功。現在隻需幾分鐘就能完成。
雖然這個AI模型并非完美,但它能估計所産生結構的正确性,是以研究人員能夠了解預測結果的可靠程度。
利用AlphaFold2預測的蛋白質結構
在2020年CASP競賽之後,David Baker意識到了基于Transformer的AI模型的潛力。
随後,他便将其添加到Rosetta軟體中,進而促進了蛋白質設計的發展。
近年來,一個又一個令人驚歎的人工設計蛋白質從Baker的實驗室湧現。
利用Rosetta軟體設計的人工蛋白質
AI的影響力,已經滲透進了諾貝爾獎的各個領域,不知接下來是否還會有驚喜。