文|白 鴿
編|王一粟
“AI for Science的底層邏輯,與現在大語言模型的訓練邏輯并不一樣。”深勢科技技術總監陸金譚直言,目前人工智能在科學研究領域與大語言模型在其他行業中應用的邏輯并不相同。
業内皆知,大語言模型訓練依賴于高品質資料“喂養”,資料越多,大語言模型能力越強。但科學研究的一些特定領域,資料量相對稀少。比如某些特定類型的蛋白質結構,可能需要數年時間才能獲得幾百條高品質的實驗資料。
這也就意味着,AI在科研領域的應用,需要用比較少的資料,來達到更好的模型效果。
那麼,AI究竟如何改變科學?又是如何在其中跑通商業模式?作為AI for Science的代表企業之一,深勢科技則給出了自己的思考和解法。
在傳統科學計算中,如果想要通過分子和原子的結構資訊去預測其實體性質,通常需要結合實際問題進行微觀計算。目前業界在實作這種跨尺度的計算能力方面仍然較為欠缺,更多依賴經驗判斷和實驗驗證。
與此同時,計算體系規模的擴大,傳統科學計算的計算量呈指數級增長,經常是上萬,甚至是上億原子規模體系的計算量,如果完全依賴正常實體模型進行計算,整體的計算時間周期可能會非常長。
“深勢科技能夠讓模型産出接近于實體模型精度的計算效果,同時大大提升計算性能。”陸金譚說道,“我們通過AI手段去拟合這些實體方法,把之前可能需要大計算量的事情變得更快。”
以圖像識别為例,其核心在于分析圖檔的像素資訊,通過引入卷積神經網絡,能夠提取圖檔中的局部特征,将原始圖檔分解為不同的特征圖,并通過特征組合進行近似求解,這其實是一個降維分析。
事實上,AI在科學領域也屬于降維應用,通過模型強大能力,尤其是在涉及跨尺度計算的早期階段,通過其強大的模組化能力降低計算複雜度。同時,基于多模态大模型能力,還可以實作對分子結構、實體性質、實驗資料等多種類型的資料進行多元度的分析和預測。
比如在藥物發現過程中,通常首先需要對蛋白質結構和靶點進行分析,接着在數十萬甚至上百萬的化合物庫中,篩選出與靶點具有高親和力的候選化合物。通常會進行多元度的評估,包括親和力分析、藥物化學性質(如毒性、吸收、代謝等特性)的預測和評估。
“在AI for Science領域,大模型能夠支援跨尺度計算的關鍵在于其龐大的參數規模和強大的泛化能力。模型的巨大參數量使其能夠捕捉複雜的實體、化學和生物現象,而強泛化能力則幫助模型在不同領域的科學問題間實作靈活應用。”陸金譚表示,“基礎模型可以基于藥物的微觀結構預測其相關性質。當将該模型遷移應用到材料領域時,它同樣能夠通過分析材料的微觀結構,預測材料在不同溫度和壓強下的穩定性及其他實體狀态。”
是以,深勢科技對AI for Science裡面基礎通用模型的了解,更多的在于有一套基礎預訓練模型,這個模型通過微調可以被應用到各個工業領域進行問題求解。
深勢科技目前研究的幾個基礎模型,可以在有限資料增訓下,仍然能獲得較好的結果,後續可以再基于獲得的更高品質的資料去進一步優化和修正。在這個模型體系下,讓AI去學習基礎的科學原理本身,通過少量的領域資料進行增訓就已經能得到不錯的效果,這跟大語言模型稍有差別。
陸金譚對光錐智能說道,“科學計算領域資料來源并不廣泛,公用資料集并不多,是以我們現在很大一部分工作,是如何在小資料集基礎上,讓模型的訓練效果越來越好。”
過去兩年,深勢科技也成功推出了一系列行業大模型,如DPA分子模拟大模型、Uni-Mol 3D分子構象大模型、Uni-Fold蛋白折疊大模型、Uni-RNA核酸結構大模型、Uni-Dock高性能藥物分子對接引擎,以及Uni-SMART科學文獻多模态大語言模型等。
據陸金譚表示,目前深勢科技在材料領域和藥物領域一共有上百個模型,這些模型也已經成功內建到深勢科技的産品平台中。與此同時,深勢科技也與行業中領先的數十家藥企達成了戰略合作,2023年也實作商業化的突破,營收過億。
目前,深勢科技的業務已經覆寫高校智慧教育、生物醫藥研發,以及電池新材料。
不過,按照現階段AI for Science的算法分級,整體發展仍處于L2階段,即接近實驗精度,更多仍是以人為本,通過模型計算來輔助人類,減輕壓力。
到了L3階段,AI則能夠直接給出結果,在某些場景中,則可以直接替代掉人類實驗。
想要從L2邁入L3,“主要的難點在于各環節精度需要達到一定的高度,同時各環節中的算法如何進行整合,也是一大挑戰。”陸金譚如此說道。
面向未來,陸金譚認為,AI for Science市場空間足夠大,不管是教育科研、生物醫藥,還是電池材料,AI的加入至少在實驗層面,就能夠實際的解決很多根本性的問題,為賦能産業、前沿探索等提供更多的思路和切入點。
以下為光錐智能與深勢科技技術總監陸金譚詳細對話内容(經光錐智能删改編輯):
深勢科技用AI,為科學研發提質增效
Q:大模型改變了自然語言處理、改變了視訊、圖檔生成,是怎麼改變科學的?
A:大語言模型在挖掘文獻資訊、專利資訊等領域已開始應用,我們将其稱為文獻大模型,我們在這個領域也有了一些研究成果,除了用它挖掘比較專業的化合物資訊外,還會做一些圖檔、圖表解讀等這種多模态的應用。
在傳統的科學計算中,經常會遇到的問題是從微觀到宏觀尺度,有不同的實體模型進行問題求解,但在一些跨尺度的計算場景中能力還比較欠缺。比如我們通過分子原子的結構資訊,想要去預測它的宏觀性質,就需要跨尺度模組化的能力。
人工智能包括大模型,可以做到跨尺度模組化,通過對這些實體模型的學習,再應用到具體的問題中,就能夠很好的解決這些問題。
我們通常需要進行大通量的計算,經常是上萬甚至是上億原子規模體系的計算,如果基于實體模型計算,時間周期會比較長。深勢科技這邊做的事情,就是能夠讓模型産出接近于實體模型精度的計算效果,同時能夠大大提升計算性能。
Q:上億原子體系規模的計算,如何換算到大模型領域的計算,大概是什麼樣的計算量?
A:在微觀尺度下,兩個原子之間的互相作用可以通過實體模型來分析,例如通過經典力學或量子力學方程,計算它們之間的互相作用力和運動軌迹。這時,計算隻需要考慮兩個原子的互相影響,問題相對簡單。然而,随着系統中的原子數量增加,情況變得更加複雜。例如,當引入第三個原子時,除了考慮每個原子之間的兩兩互相作用,還要分析三者之間的多體效應。這時,原子之間的互相作用和軌迹不僅取決于兩個原子,而是由整個系統的狀态共同決定,計算量呈非線性增長。科學家們通常會引入近似算法,如密度泛函理論或分子動力學模拟,來有效處理不同尺度下的計算。
而我們AI在早期做的事情,其實是通過AI的手段去拟合這些實體方程,提高計算性能。可以類比圖像識别,其核心的點在于它去分析各種像素,我們加入卷積神經網絡後,它會把一張圖檔拆成一個個特征圖檔,然後進行近似求解,這其實是一個降維的分析。我們人工智能在科學計算領域早期做的,也可以看作是一個降維的動作,即把之前可能需要大計算量的事情變得更快。
Q:傳統AI時候的計算方式和大模型來了之後,中間有什麼差別?
A:大模型的定義相對模糊,一般以參數量為名額,參數越多,計算量越大。對我們來說,更多的是提供多尺度的計算。我們目前的預訓練模型 Uni-Mol,基于分子和原子的三維結構,預測相關實體性質,建立構效關系,直接求解,過去的做法往往依賴實驗和經驗來預測。這種方法結合了不同尺度上的計算,為材料科學等領域提供了全新的計算手段。
我們對待大模型一般會更強調模型泛化能力。在AI for Science領域,是相對通用的。比如基礎模型,可以基于微觀結構去預測藥物相關的一些性質,将這個模型做一些遷移,則可以應用到材料領域,但關心的性質可能就不是藥化性質,而是在不同溫度不同壓強下它的狀态,是以我們對AI for Science裡面基礎通用模型的了解更多是一套基礎的預訓練模型,這個模型通過微調可以被應用到各個工業領域進行問題求解。
Q:多模态在其中主要起到哪些作用?
A:涉及将不同類型的資料,如分子結構、實體性質、實驗資料等,結合起來進行綜合分析。比如在藥物發現過程中,通常首先需要對蛋白質結構和靶點進行分析,接着在幾十萬甚至上百萬的化合物庫中,篩選出與靶點具有高親和度的化合物,而在篩選的過程中,可能包含親和度分析、藥化性質分析,是否有毒、是否利于人體吸收等,可能是有多個次元的分析。是以想要達到一個比較好的篩選效果,是需要綜合多個角度、多種性質去分析。
常見的圖檔、視訊等的多模态問題,可能更貼近我們在文獻資料挖掘中的多模态應用,比如在論文中需要不僅讀取論文中的文字資訊,還包括圖檔資訊,需要對圖檔資訊進行深度挖掘,再去跟文字資訊進行整合,最後輸出結果。在文獻中,我們也會應用這種常見的多模态能力。
Q:AI for Science領域對模型資料的需求到底有多大?
A:不同領域不盡相同,當然越多越好,這裡也有擷取難度的問題。舉個例子,在生物醫藥領域的細分應用和電池領域的細分應用,資料擷取難度就不一樣,研發和驗證周期長的行業,資料産出會相對少,資料的絕對數量就有限。像某些特定類型的蛋白質結構,可能幾年才有幾百條,但在其他領域,資料肯定不止這些。
但基礎實體模型能夠生成更多資料,我們目前研究的幾個基礎模型,可以在有限資料訓練下,仍然能獲得較好的結果,後續可以再基于獲得的更高品質的資料去優化和修正。在我們這個模型體系下,讓AI去學習基礎的科學原理本身,通過少量的領域資料進行增訓就已經能得到不錯的效果,這跟大語言模型稍有差別。
Q:如何讓AI學習基礎科學邏輯,然後去做解決具體的應用難題?
A:一般是通過一些實體模型去直接進行運算,然後産出的結果資料進行訓練,之後去模拟實體模型。
Q:基礎大模型到各垂類大模型之間的關系是什麼樣的?基礎大模型是自己訓練,還是使用第三方開源大模型?
A:不同場景不太一樣,如果指的是大語言模型,更多應用在文獻解讀,比如論文解讀。基本的應用對于單篇論文解讀,出于成本考慮,會用到一些通用大模型幫我解讀論文。如果說要去進行多篇論文的解讀,甚至是在我們的大的論文庫裡面進行整體的檢索,也包括專利的檢索和分析的時候,那我們會用到自研的文獻模型去進行更細緻的論文解讀。
是以我們還是奔着使用者的産品去做,可能看哪個模型更适合我們的産品,也會出于成本的考慮,去做出選擇。
現在很多模型我們更多稱之為是預訓練模型,比如我們去年釋出的那個DPA,就是計算不同元素原子間勢函數的一套預訓練模型,前段時間也開放OpenLAM大原子模型計劃,希望能夠通過去發動一些開源的力量,能夠一起去貢獻和共享資料,把模型訓練的更成熟。
Q:深勢科技現在模型數量大概有多少?
A:我們現在材料領域和藥物領域加起來有上百個模型。
營收破億,牽手數十家藥企,深勢科技的商業模式
Q:能否分享一下深勢科技在AI醫藥領域最新的研發進展?
A:醫藥這塊其實我們現在主要關注于臨床前的研究,覆寫了幾乎所有臨床前的計算場景,比如從早期的靶點發現、蛋白質的結構分析,到靶點分析、分子篩選、親和度的分析,再到性質的預測等等,這一系列的環節裡面包含了很多這樣的計算手段,我們現在都有落地的算法。
結合醫藥場景,我們把這些所有的算法包裝成一個産品,就是我們的藥物設計平台Hermite,我們現在基本跟國内的頭部的前50家藥企業在不同的領域都有合作,主要涉及三個方面,一個是biotech(生物科技),一個是CRO(臨床研究機構),一個pharma(制藥公司),都有各自代表的企業。
上周我們剛與國内一家上市公司-東陽光簽訂合作,它是做流感藥奧司他韋的企業,也是剛剛拿到了美國三個第一的認證,我們接下來會和他們在靶點相關業務進行合作。
除了像東陽光這種比較典型的生物醫藥領域的企業之外,我們其實還跟很多在做藥物研發的科研機構和高校進行合作,比如跟華西醫科大、湘雅醫院和醫學院等都有合作。
Q:我們現在的産品其實可以直接用浏覽器就能夠使用,整體部署也很輕量化,所有的核心産品部署方式都是這樣嗎?
A:是的,我們一般線上在執行的,大多數是AI推理工作,訓練工作通常離線完成,是以資料量傳輸沒有那麼大,也會有小量訓練場景,更多是基于預訓練模型的微調,它也是通過小批量的資料就可以進行的,資料傳輸壓力也較小。輕量化部署并不是我們用到的算力不夠多,系統背後是調用了混合雲、HPC算力的,隻不過給使用者包裝成了浏覽器通路。如果是一些私有化的場景,也需要我們把這套背後的算力系統進行相關部署,在SaaS上面不需要。
一般大型企業的話,都是要私有化的。因為他們對資料隐私要求特别的高,一些類似教學的場景,或者是一些研究所的場景的話,可能在某一個課題當中就臨時用一下,不需要私有化部署。
Q:與目前合作企業實際項目進展情況如何?具體進行到什麼階段?
A:我們跟藥企的合作主要是計算環節,公司不做藥物生産,是以不參與藥企的藥物開發環節。
我們基本上算是全鍊路負載,我們現在也在嘗試一些新的領域和探索,比如将軟體整合到偏硬體研發的自動化實驗室中,共同服務好更多的企業,因為藥企的需求還是蠻多蠻複雜的。
然後從營收上來說,我們去年的營收破一個億。
我們跟藥企的合作的商業模式有兩種形式,一種是賣軟體,另外一種是聯合研發。
很多大企業會本地化部署,自己也能養得起團隊,能夠有資金足夠支撐購買軟體費用,但還有一部分可能中型或者是新型創新型藥企,缺少先進生産工具,也缺少對應的人才來支撐其使用這些工具,是以會選擇跟我們聯合研發,我們能夠幫助他們做更多的計算,其中也因為涉及到資料和資訊安全的事情,是以雙方的結合就特别緊密。
但很多大的藥企,具備足夠的資金、人才實力,甚至希望我們再給他們提供SaaS的同時,能給他做一些定制化的服務。
AI for Science的未來
Q:我看到目前的幾個算法分級,非常像自動駕駛的五個分級,目前我們在L2階段能達到一種什麼狀态了?可以多大比例上,替代此前的實驗模式?您可以舉一個具體場景的案例說明
A:L2的場景,我們更多是叫接近實驗精度,更多還是以人為本,計算去輔助人類,減輕實驗壓力。因為藥物設計裡,不同體系差距比較大,我們在部分體系上都已經能夠達到接近實驗的精度。是以也不是說使用者完全可以不用做實驗,而是我可以幫助使用者做更多基礎的事情,比如分子篩選,它可能是100萬的藥物化合物,通過AI可以幫使用者篩選掉幾十萬,最後可能剩下的,需要科研人員再進行實驗驗證,實驗量級會大大減少。
Q:從L2邁到L3的難點是什麼?
A:我對這個L3的了解是AI能夠直接給出結果,相當于在某些場景,可以直接替代掉人類實驗。到L3的難度,主要在于一個是各環節精度需要達到一定高度,另外其中涉及算法特别多,各個算法之間的整合也是一個難點。對于算法的整合,其實類似于一套完整的工作流體系,而這個體系是能夠不斷自我回溯,自我優化的。
Q:從過去到現在在整體的技術上是否有一些疊代?以及目前模型的發展上是否會遇到一些瓶頸?
A:目前我們主要基于資料在各個算法上不斷疊代,尤其是在使用者常用的産品上,算法疊代更快一些,像我們的DPA産品,已經從1代更新到2代,更新的能力在于,1代能夠支援單一領域的預訓練,2代則能夠根據不同的标注方式的資料集,同時進行并行訓練。
瓶頸主要來源于資料,科學計算領域資料來源并不廣泛,公用資料集沒有很多,是以我們現在很大一部分工作,是如何在小資料集基礎上,讓模型的訓練效果越來越好。
另外,還有一個額外需要注意的,就是可解釋性問題,因為科學計算要求比較嚴謹,對可解釋性要求更高,我們現在通過暴露參數、平移的路徑等方式,來盡量增強模型的可解釋性。
Q:如何解決資料稀少問題?
A:在AI for Science領域,不管是材料領域,還是藥物領域,最基礎微觀層面的實體原理是一緻的,是以好處是,某些材料領域的資料可以直接複用到醫藥領域,比如DPA 2就能基于不同标準體系下給到的資料,幫助使用者訓練出一個統一的模型。然後将這套模型具體應用到行業中時,再拿少量資料進行微調,就可以進行使用。
在ToC市場中我們還沒有涉及,但我們這套體系已經覆寫了一些教學場景。我們有一個教學研用一體化的科研平台,現在主要面對的客戶是偏高校,或者是偏C端的一些使用者。針對高校,我們這邊會有老師類似實訓平台,從整個教學到學生上課,再到使用,甚至是研究成果的落地,這個平台都可以支援。
Q:AI for Science未來市場發展空間如何?
A:市場空間我覺得足夠大。不管是科研,還是醫藥、材料,AI的加入至少在實驗這個層面上,就能夠實際的解決問題,幫助科研人員提升實驗效果,減輕實驗負擔。
從整個客戶接受程度來說,于我們而言很多場景中有一部分成本則是在于教育使用者,比如在藥物領域,我們跟客戶都是建立長期合作關系,因為需要陪着客戶走完一整個驗證周期。
相比較來說,材料領域會快很多,比如電池的研發周期就挺快的,電解液的配比如果用AI預測出效果的話,很夠就能夠進行制備驗證。
從國家層面,科技部會同自然科學基金委啟動了Al for Science專項部署工作。這也進一步說明了從社會經濟層面到國家宏觀政策都是看好和大力支援的,這塊肯定是一個未來的方向,毋庸置疑。
Q:AI for Science現在還是偏早期的階段,未來3年内會發展到什麼階段?
A:我覺得至少所有的客戶會對這件事有一個統一的認知。現在大家已經開始積極擁抱AI,對AI的了解更上一層。所有各行業都不會對這個詞感覺到陌生或者排斥,有一個比較積極的态度。之後就是我們跟客戶怎麼建立類似共創的合作關系,畢竟這個行業屬于資料敏感型行業。在三年節點上,也希望能夠幫客戶有一些實際的落地場景出來。
其實我覺得如果說能夠把那個價值點稍微考量的更清楚,客戶的接受度還是蠻高的,因為整體上來講,現在無論是藥企還是剛才講的新能源,大家也越來越重視創新投入。我們也是希望能夠助力整個科研範式創新,包括科研的基礎設施,以及上層各個場景,通過我們這套科研平台能夠能夠連通起來,然後去賦能各個行業。