引 言
2020年9月,一項由中國研究團隊負責的研究成果,在影響因子8.58的Theranostics期刊上發表,題為“Development and interpretation of a pathomics-based model for the prediction of microsatellite instability in Colorectal Cancer”。
此次研究提出了一種基于組織病理學圖像預測微衛星狀态的內建多執行個體深度學習模型,并利用多組學相關性分析對基于病理切片的模型進行了闡明和解釋,有望為所有惡性良性腫瘤患者進行微衛星狀态評估提供可能。
桐樹基因是該研究團隊成員之一,其在MSI雙重金标準檢測上過硬的檢測實力及生物資訊資料深度挖掘的先進技術為此次研究提供了強有力的支援。 計算機病理學出現,有望解決日益增長的MSI檢測需求微衛星不穩定(microsatellite instability,MSI)是由于DNA錯配修複缺失(dMMR)導緻的高突變表型。具有該表型的惡性良性腫瘤被稱為MSI-H惡性良性腫瘤,據估計每年新發可達30萬。
MSI被視為導緻惡性良性腫瘤的第五種突變類型,并且具有非常明确和重要的臨床意義:
• MSI可用于輔助診斷林奇綜合征;
• MSI是II期結直腸癌預後因子;
• MSI可預測II期結直腸癌5-FU化療療效;
• MSI是PD-1/L1免疫檢查點阻斷療法療效預測因子。
是以近年來,MSI檢測的臨床需求顯著增加。但由于MSI檢測不可忽視的經濟成本和時間成本,并不是每一位患者都能夠進行MSI檢測,尤其是一些MSI發生率低的癌種的患者和開發中國家的患者。
計算病理學的出現為研究者找到适用于所有惡性良性腫瘤患者評估MSI狀态的方法帶來了希望——因為每一位癌症患者都需要完成病理切片分析,而這些病理切片可以轉化為AI分析所需的數字信号。
病理圖像中預測MSI的方法模型的建立研究總共收集了兩個隊列的惡性良性腫瘤組織切片并生成WSI(whole slide image)圖像。
隊列1(TCGA-COAD)是429例來源于癌症基因組圖譜(the Cancer Genome Atlas,TCGA)的凍存結直腸癌組織。每例樣本通過MSIsensor算法評估了MSI狀态,其中358例為MSS,71例鑒定為MSI。
隊列2(Asian-CRC)是從上海桐樹生物技術有限公司收集,由國内三個醫療中心提供的785例各個分期的結直腸癌FFPE樣本,
每例樣本均采用雙重金标準方法(“PCR+毛細管電泳”方法和“2B3D” NCI panel)完成MSI檢測,其中621例為MSI-L/MSS,164例為MSI-H。
研究團隊通過對樣本組織切片進行惡性良性腫瘤區域圈定,圖像切片和資料預處理等操作生成均一化的圖像資料。再由兩種MIL(Multiple Instance Learning)深度學習路徑包括PALHI(Patch Likelihood Histogram)和BoW(Bag of Words)分别對資料進行處理和分析。
最後
通過內建學習找到兩種MIL方法的最優組合分析方法EPLA(Ensemble Patch Likelihood Aggregation)完成微衛星狀态的預測。
分析流程如下圖1:
Figure 1 分析流程概覽
在建立了EPLA分析模型後,研究團隊用隊列1中的樣本進行了分析性能評估,最終AUC達到0.8848。
較以往的研究方法DL-based MV(Deep-Learning based Majority Voting)有性能提升(同為隊列1中的樣本結果比較:0.8848 vs 0.8457;與其原始樣本資料比較:0.8848 vs 0.84)。
此外,研究團隊還對EPLA識别的病理表型進行了探索性分析,發現EPLA分析可以展現惡性良性腫瘤分化等級和微衛星狀态之間的聯系,是以也證明EPLA模型與病理形态學之間存在一定的内部聯系。
Figure 2 EPLA分析性能驗證與DL-based MV 分析性能比較
随後,研究團隊将EPLA模型應用到隊列2(Asian-CRC)中檢測其通用性。
由于與隊列1中的樣本的種族和切片制備方法之間存在較大差異,AUC為0.6497(95% CI:0.6061-0.6933)。但将10%的隊列2樣本納入遷移學習并以此微調EPLA模型的參數後AUC可顯著提升,達到0.8504(95% CI:0.8158-0.885)。而後在納入更多隊列2中的樣本進行遷移學習,EPLA分析性能可穩定提升,當納入70%的隊列2樣本後,AUC可達到0.9264(95% CI:0.8806-0.9722)。
由此可見遷移學習可以解決不同研究對象之間的異質性帶來的差異。
Figure 3 EPLA 模型在隊列2中的實用性與分析性能
為了深刻了解EPLA模型的MSI預測機理,研究團隊探索了EPLA模型在預測隊列1的樣本時的病理特征分布,
通過病理特征對“WSI”水準的預測權重的排序找出了5個最重要的病理特征:FEA#197、FEA#198、FEA#001、FEA#188、FEA#200。這5個特征中FEA#001與MSS樣本顯著關聯,其餘4個與MSI顯著關聯。随後将這5個重要特征與基因組學進行多組學分析,結果發現
FEA#001高的樣本大多是MSS表型,DNA修複相關的通路均功能正常,包括MMR、DDR、HRD;
相反其他4個特征指數高的樣本則在這些通路表現為功能缺失,并且在POLE基因以及BRCA1/2基因上也是相同情況。
是以确定這些病理特征與基因圖譜有非常強烈的聯系。
Figure 4 5個重要病理特征與基因組的相關性
研究團隊進一步運用權重基因共表達網絡分析(WGCNA)找到了24個轉錄子產品,并通過注釋分析保留了其中18子產品與5個重要病理特征進行相關性分析,結果顯示
ME12、ME8、ME21、ME14、ME13、ME18和ME16這7個轉錄子產品與FEA#001這個重要病理特征顯著負相關;
而與其餘4個子產品顯著正相關。
進一步研究顯示這些轉錄子產品在不同程度上與MSI抗惡性良性腫瘤活性有關,可加強免疫檢查點抑制劑的功效,這也符合微衛星狀态與免疫之間的關系。
Figure 5 5個重要病理特征與轉錄模型和抗惡性良性腫瘤免疫的相關性
結論在這項研究中,研究團隊開發了一個不需要基因或免疫組化檢測而基于病理切片來直接從病理圖像中預測MSI的方法模型。使用這個方法
使得對所有惡性良性腫瘤患者進行微衛星狀态評估有了可能性。模型的可靠性在兩個獨立的組群中得到驗證,模型的可解釋性通過探索病理特征和多組學特征之間的相關性得到闡明。 關于桐樹基因:上海桐樹生物科技有限公司(常州桐樹生物科技有限公司)是一家專注于惡性良性腫瘤精準醫療領域的高新技術企業。總部位于上海寶山科技創新園,已分别在常州和廣州設立有GMP标準的生産中心和國際标準的醫學臨檢中心。
桐樹基因與世界頂尖的高通量測序生物公司——賽默飛世爾(ThermoFisher)達成戰略合作關系,強強聯手。目前已形成基于高通量基因測序技術與生物資訊分析的ctDNA精準檢測體系,500多項分子病理檢測項目,實作了對惡性良性腫瘤無創、準确、動态的基因分析,為臨床提供精準用藥、療效監測、術後複發監測、風險預測和早期檢測等咨詢服務。桐樹基因的産品線全面滿足臨床及科研的不同需求,檢測服務網絡現已覆寫全國五大區域200多家核心醫院。