天天看點

數百萬晶體資料訓練,解決晶體學相位問題,深度學習方法PhAI

數百萬晶體資料訓練,解決晶體學相位問題,深度學習方法PhAI

編輯 | KX

時至今日,晶體學所測定的結構細節和精度,從簡單的金屬到大型膜蛋白,是任何其他方法都無法比拟的。然而,最大的挑戰——所謂的相位問題,仍然是從實驗确定的振幅中檢索相位資訊。

丹麥哥本哈根大學研究人員,開發了一種解決晶體相問題的深度學習方法 PhAI,利用數百萬人工晶體結構及其相應的合成衍射資料訓練的深度學習神經網絡,可以生成準确的電子密度圖。

研究表明,這種基于深度學習的從頭算結構解決方案方法,可以以僅 2 埃的分辨率解決相位問題,該分辨率僅相當于原子分辨率可用資料的 10% 到 20%,而傳統的從頭算方法通常需要原子分辨率。

相關研究以《PhAI: A deep-learning approach to solve the crystallographic phase problem》為題,于 8 月 1 日釋出在《Science》上。

數百萬晶體資料訓練,解決晶體學相位問題,深度學習方法PhAI

論文連結:https://www.science.org/doi/10.1126/science.adn2777

晶體學是自然科學中的核心分析技術之一。X 射線晶體學為晶體的三維結構提供了獨特的視角。為了重建電子密度圖,必須知道足夠多的衍射反射的複雜結構因子 F。在傳統實驗中,隻能獲得振幅 |F|,而相位 ϕ 會丢失。這是晶體學相位問題。

數百萬晶體資料訓練,解決晶體學相位問題,深度學習方法PhAI

圖示:标準晶體結構測定流程圖。(來源:論文)

20 世紀 50 年代和 60 年代取得了重大突破,Karle 和 Hauptmann 開發了用于解決相位問題的所謂直接方法。但直接法需要原子分辨率的衍射資料。然而,原子分辨率的要求是一種經驗觀察。

近年來,傳統的直接方法已被對偶空間方法所補充。目前可用的從頭算方法似乎已達到極限。相位問題的普遍解決方案仍然未知。

從數學上講,結構因子振幅與相位的任何組合都可以進行逆傅裡葉變換。然而,實體和化學要求(例如具有原子狀電子密度分布)對與一組振幅一緻的相位的可能組合施加了規則。深度學習的進步使得人們能夠探索這種關系,也許比目前的從頭算方法更深入。

在此,哥本哈根大學的研究人員采用了資料驅動的方法,使用數百萬個人造晶體結構及其相應的衍射資料,旨在解決晶體學中的相位問題。

研究表明,這種基于深度學習的從頭算結構解決方案方法,可以在僅最小晶格平面距離(dmin)= 2.0 Å 的分辨率下執行,隻需要使用直接方法所需資料的 10% 到 20%。

神經網絡的設計與訓練

建構的人神經網絡稱之為 PhAI,接受結構因子振幅 |F| 并輸出相應的相位值 ϕ 。PhAI 的架構如下圖所示。

數百萬晶體資料訓練,解決晶體學相位問題,深度學習方法PhAI

圖示:PhAI 神經網絡方法解決相位問題。(來源:論文)

晶體結構的結構因子數量取決于晶胞大小。根據計算資源,對輸入資料的大小設定了限制。輸入結構因子振幅是根據 Miller 指數 (h、k、l) 服從

數百萬晶體資料訓練,解決晶體學相位問題,深度學習方法PhAI

的反射來選擇的。

也就是,限制在原子分辨率下晶胞尺寸約為 10 Å 的結構。此外,選擇了最常見的中心對稱空間群 P21/c。中心對稱性将可能的相位值限制為零或 π rad。

研究使用主要包含有機分子的人工晶體結構訓練神經網絡。建立了大約 49,000,000 個結構,其中有機晶體結構占 94.29%,金屬有機晶體結構占 5.66%,無機晶體結構占 0.05%。

神經網絡的輸入由振幅和相位組成,它們由卷積輸入塊處理,添加并輸入到一系列卷積塊(Conv3D)中,然後是一系列多層感覺器(MLP)塊。來自線性分類器(相位分類器)的預測相位通過網絡循環 Nc 次。訓練資料是通過将 GDB-13 資料庫中的金屬原子和有機分子插入到晶胞中生成的。生成的結構被組織成訓練資料,從中可以計算出在采樣溫度因子、分辨率和完整性時的真實相位和結構因子振幅。

解決真實結構問題

經過訓練的神經網絡在标準計算機上運作,計算需求适中。它接受 hkl 索引清單和相應的結構因子振幅作為輸入。不需要其他輸入資訊,甚至不需要結構的晶胞參數。這與所有其他現代從頭算方法有着根本差別。網絡可以即時預測并輸出相位值。

研究人員使用計算得出的真實晶體結構的衍射資料測試了神經網絡的性能。共獲得 2387 個測試用例。對于所有收集的結構,考慮了多個資料分辨率值,範圍從 1.0 到 2.0 Å。為了進行比較,還使用了電荷翻轉方法來檢索相位資訊。

數百萬晶體資料訓練,解決晶體學相位問題,深度學習方法PhAI

圖示:相位和真實電子密度圖之間的相關系數 r 的直方圖。(來源:論文)

經過訓練的神經網絡表現出色;如果相應的衍射資料分辨率良好,它可以解決所有測試結構(N = 2387),并且在從低分辨率資料中解決結構方面表現出色。盡管神經網絡幾乎沒有針對無機結構進行訓練,但它可以完美地解決此類結構。

電荷翻轉法在處理高分辨率資料時表現優異,但随着資料分辨率的降低,其産生合理正确解的能力逐漸下降;然而,它仍然以 1.6Å 的分辨率解決了大約 32% 的結構。通過進一步試驗和更改輸入參數(例如翻轉門檻值),可以改善通過電荷翻轉确定的結構數量。

在 PhAI 方法中,這種元優化是在訓練期間執行的,不需要由使用者執行。這些結果表明,在晶體學中必須有原子分辨率資料才能從頭算相位的普遍觀念可能被打破。PhAI 僅需要 10% 至 20% 的原子分辨率資料。

這一結果清楚地表明,原子分辨率對于從頭算方法來說不是必需的,并為基于深度學習的結構測定開辟了新途徑。

這種深度學習方法的挑戰是擴充神經網絡,也就是說,較大晶胞的衍射資料将需要大量的輸入和輸出資料以及訓練期間的計算成本。未來,需要進一步研究,将該方法擴充到一般情況。

繼續閱讀