如果說10月8日頒發的諾貝爾實體學獎是與人工智能有點暧昧不清,那麼10月9日揭曉的諾貝爾化學獎就徹底“不裝了”,看來ChatGPT拿文學獎也指日可待了(bushi)。
2024年的諾貝爾化學獎授予大衛·貝克爾(David Baker),以表彰其計算蛋白質設計方面的研究;以及德米斯·哈薩比斯(Demis Hassabis)和約翰·詹珀(John Jumper),以表彰其在蛋白質結構預測方面的研究。
這兩項研究都與人工智能與生物學的深度結合有關。蛋白質設計和蛋白質結構預測方面的工作,若非人工智能的加持,注定是一個極其有意義但同時極其無解的領域。
下面,我們就來一起了解一下,為什麼這項工作意義重大而又如此困難,人工智能又為解決這一問題作出了怎樣的貢獻。
蛋白質的功能與結構
蛋白質是一切生命活動的展現者。大腦傳遞資訊,靠的是蛋白質搬運電荷;肌肉收縮,靠的是蛋白質互相拔河;細胞需要能量,靠的是蛋白質運輸氧氣。癌症、阿茲海默症、艾滋病、糖尿病……幾乎任何疾病都與蛋白質有着千絲萬縷的聯系。
換句話說,想要研究透徹生命,就必須研究透徹蛋白質;想要研究透徹蛋白質,就必須完全了解其結構的秘密。
很久之前人們就知道,蛋白質雖然種類可能上億,形态結構千變萬化,但是它們大部分都是由20種組成元件拼成的,這些元件就是氨基酸。就像樂高積木雖然能拼出形形色色的物體,但是其基礎小塊的數量卻很少。
一個蛋白質到底選用了哪些氨基酸以及它們按順序排列成多肽鍊,這被稱為蛋白質的一級結構;這些氨基酸排好序之後,它們之間能形成哪些基本構型,這被稱為蛋白質的二級結構;這些構型之間如何互相靠攏、形成有功能的團塊,這被稱為蛋白質的三級結構;有的蛋白質還需要幾條多肽鍊之間的互相結合,這被稱為蛋白質的四級結構。
蛋白質的結構 (圖檔來源:瑞典皇家科學院)
人們發現,蛋白質的複雜功能,完全依賴于蛋白質的三級和四級結構。蛋白質從線性的多肽鍊形成複雜卻精巧的三維結構,這就是蛋白質折疊。生物中的每個蛋白質都是極緻的平衡大師。它們的形狀、大小、親水性、電荷數量等特性被嚴密地控制在一個最适合的範圍内,進而保證它們各自能夠行使不同的生物學功能。
而這些進階結構能夠維持,又是由于一級結構所決定的。一級結構如果出錯,那麼就會導緻所有的進階結構統統錯誤,嚴重情況下會導緻整個蛋白質失效。
例如,如果在血紅蛋白的某個位置上,本來親水性的氨基酸突變成了不親水的氨基酸;這個不親水的氨基酸會導緻這個血紅蛋白的親水性大大降低,于是它們不是溶解在血液裡,而是互相凝固在一起。凝固在一起的血紅蛋白無法攜帶氧氣,這就是鐮刀形紅細胞貧血病的病因。
是以,蛋白質的一級結構是基礎,而它的進階結構是表象。那麼,我們是否可以從基礎推測表象,或者依據想要實作的表象,而設計出基礎呢?
要了解蛋白質結構的秘密,太難了
一級結構的測定方法早在上世紀七十年代就已經問世。而從上世紀五十年代開始,化學家們就已經能夠根據氨基酸的性質,推測相鄰氨基酸之間的互相作用,以及它們能夠形成的構型,是以人們對二級結構的了解也很深入。
此時,人們已經确信,蛋白質的進階結構,完全由其氨基酸序列确定。但這也帶來了一個悖論:氨基酸序列能夠産生的排列可能是一個天文數字,如果細胞把每個可能性都嘗試一遍,那可能要到宇宙毀滅那一天。換句話說,蛋白質是如何快速“選擇”自己該折疊成什麼結構的呢?其背後的規則是怎樣的呢?
一旦掌握了這個規則,那麼我們就能解決兩個重要問題:一是蛋白質結構預測,二是蛋白質結構設計。
換句話說,一旦掌握了蛋白質折疊的規則,那麼人類就成為了主宰蛋白質世界的“神”,我們就可以快速解讀出世界上任何蛋白質的功能,進而清晰地認識生物;也可以任意向生物中添加某種功能的蛋白質,進而定向地改造生物。
這麼重要的規則,其難度當然可想而知。
用樂高的比喻來說,這兩個問題就是:如果給我一堆樂高零件,我能不能預測一下它們能拼成什麼物體;如果讓我去拼一個物體,我能不能徒手畫出它的設計圖,并且判斷哪種設計圖最省時省力。
對于樂高來說,各個小塊之間的互相作用是确定而穩固的,它們互相可以卡住,并且隻能從固定的方向卡住。
但是對于氨基酸來說,它們可能以許多類型的力進行互相作用,例如電荷互相作用、疏水作用、氫鍵等。更要命的是,這些氨基酸在空間上可能以任意的角度、方向和距離進行互相作用;而且互相作用的大小、類型都會為不同的功能來服務,并不是一成不變的。
起初,人們希望通過解構一些有代表性的蛋白質的結構,對蛋白質折疊規則來個“管中窺豹”。結果窺了好幾百次豹才發現,每次窺到的東西都不一樣,有時候還不能确定窺到的是不是豹子身上的斑點。
畢竟,蛋白質的功能有幾十萬種,結構有幾百萬種,它們内部到底隐藏着多少規則,這已經遠遠超出了人腦的了解能力範圍。
利用人工智能的強項解決問題
然而,這種從大量重複中尋找固定模式,并且引用這一模式來解決實際問題的工作,恰好是人工智能的強項。
人工智能能夠将蛋白質的幾十萬種功能和幾百萬種結構一個個地學習并總結起來,它雖然不能向人類描述其中的折疊規則,但是卻能夠合理地運用它所發現的規則,進而間接實作蛋白質結構設計和結構預測。
下面就是今年獲獎者們的一些嘗試。
1999年,貝克爾和同僚開發了Rosetta計算機程式。這一程式先是學習了當時人類已知的蛋白質資料庫,然後使用蒙特卡洛優化,主要考慮範德華互相作用、氫鍵和溶劑化效應等因素,進而給出幾個可能得方案。
貝克爾用這一程式設計了一個特定功能的蛋白質,程式給出的方案與任何自然界中存在的蛋白質都不同;人們将它合成出來之後,确實發現它能夠行使貝克爾預先設想的生物學功能。這也是人類首次成功設計出複雜功能的蛋白質。
一些利用Rosetta設計的蛋白質(圖檔來源:瑞典皇家科學院)
時間到了2018年,哈薩比斯和詹珀的Deepmind公司,開發了基于卷積神經網絡的人工智能AlphaGo,通過學習了上萬億盤圍棋之後掌握的圍棋規則,徹底擊敗了人類;于此同時,Deepmind公司将這種快速學習的人工智能應用于蛋白質結構預測領域,開發了AlphaFold,預測成功率達到了60%。
到了2020年,AlphaFold的更新版AlphaFold2的預測結果已經可以做到與實驗測量結果幾乎沒有誤差,也就是說隻要告訴它蛋白質是由哪些氨基酸構成的,那麼它就會告訴你這個蛋白質的結構和功能是怎樣的。而2024年釋出的AlphaFold3雖然精确度變化不大,但具有了一定的通用性,不再局限于蛋白質,還可以用于其他生物高分子與小分子配體、高分子修飾,以及蛋白質和它們的複合物結構。
Alphafold2基于神經網絡的深度學習模型 (圖檔來源:“返樸”公衆号)
結語
可以說,貝克爾、哈薩比斯和詹珀的工作開辟了生化和生物學研究的新時代,我們現在可以用以前無法想象的方式預測和設計蛋白質結構。
當然,如果沒有結構生物學家的努力,上述進展不可能實作。他們為蛋白質資料庫提供了大量實驗确定的蛋白質結構。這些資料是數十年蛋白質結構測定研究的結果,為今年獲獎者在蛋白質設計和結構預測方面取得的決定性突破奠定了基礎。
有人也許會問“人工智能這麼強大了,結構生物學家是否會失業?”其實,就像ChatGPT沒有讓寫手失業一樣,人工智能在蛋白質設計和結構預測方面還有很多問題有待解決(比如對複合體、柔性區的預測等等)。對于結構生物學家來說,“獲得結構”隻是研究的手段,了解生命,做出生物學發現才是目的。正如顔甯院士所說,“如何能夠了解我們細胞裡各個分子的動态變化,是我們目前面臨的最大挑戰之一”。
作者:牧心