天天看點

CellPress | 醫學上人工智能的缺失

整個醫療保健鍊中的利益相關者正在尋求将人工智能(AI)納入其決策過程。從早期藥物開發到臨床決策支援系統,已經看到了AI如何提高效率和降低成本的示例。本文讨論了應優先考慮的一些關鍵因素,以使AI在整個醫療保健價值鍊中成功內建。特别是,研究者認為對模型的可解釋性的關注對于深入了解潛在的生物學機制并指導進一步的研究至關重要。此外,讨論了在任何AI架構中內建各種類型的資料以限制偏差,提高準确性并為醫學的跨學科性質模組化的重要性。

CellPress | 醫學上人工智能的缺失

1.從實驗室到臨床的AI應用

近年來,人工智能技術在醫療保健研究中的使用急劇增加。産生和存儲前所未有的大型資料集以及擴大計算規模的能力使AI蓬勃發展。大資料革命最大程度地增強了AI的子領域機器學習(ML),其中學習是通過暴露于預先存在的大型資料集來驅動的。這些發展共同為AI創造了新穎而令人興奮的機會,可以在多個階段積極影響醫學領域。

CellPress | 醫學上人工智能的缺失

AI最直接轉變的醫療保健子領域是在皮膚病學、放射學或病理學等領域中基于圖像的診斷方法。在一項開創性研究中,Esteva等人利用Google Inception卷積神經網絡(CNN)架構從皮膚病變圖像中對非黑色素瘤和黑色素瘤皮膚癌進行分類,并獲得了與專家同等的結果。在最近的一項研究中,Campanella等人展示了AI如何通過使用針頭活檢病理切片的數字化圖像作為模型中的特征來準确地區分前列腺癌。

這些方法都使用了一種稱為深度學習(DL)的ML類型,它是深度超過三層的神經網絡,是計算機視覺領域的重要組成部分,旨在廣泛模拟人腦中神經元的活動。傳統上訓練神經網絡時,特征(在模型中輸入的不同資料)和每個特征的重要性之間的關系是未知的。是以,每層中每個神經元的權重是随機配置設定的。但是,這可能會導緻訓練時間變慢,因為一個人的模型必須從頭開始“學習”這些關系。預訓練神經網絡,使用先前訓練過的模型的權重初始化網絡的能力允許更健壯的模型,這些模型可以更快地進行訓練,進而使其非常适合複雜的多元問題。盡管DL經常因缺乏可解釋性和計算成本而受到批評,但這些方法顯示出的準确性與受過訓練的臨床醫生相當,或在某些情況下優于訓練有素的臨床醫生。

CellPress | 醫學上人工智能的缺失

AI驅動的診斷背後的主要驅動力之一是可用于訓練算法的大量圖像。電子健康記錄(EHR)是大資料的另一個來源,為基于AI的分析提供了巨大的潛力。EHR提供了一個獨特的機會來利用廣泛的時間序列患者資料,其中包括有關診斷、治療、複發和合并症的資訊。毫不奇怪,人工智能研究人員已經利用這些資料使用線性模型和神經網絡建立了預測模型,用于各種患者護理問題,例如患者再次入院或發生特定醫療事件的風險。

除了DL,線性模型對于在醫學中采用AI也是必不可少的。線性模型有很多不同的種類。但是,它們都依賴于這樣的事實,即特征與所預測的變量之間存在潛在的線性關系。這個基本原理無疑限制了線性模型在複雜情況下的适用性。但是,它使研究人員可以清楚地了解每個功能對預測的影響,進而使其難以解釋。是以,這可能很有吸引力,尤其是在生物學中,需要對底層機制有清楚的了解。例如,在臨床試驗空間内,Geeleher等人訓練了線性模型來利用患者的遺傳狀況預測藥物療效。近年來,線性模型已成為了解基因組學對藥物功效的影響的标準方法。

還建議使用AI為患者建立工具,而不是專門為臨床醫生和/或研究人員建立工具。具體來說,已經引入了聊天機器人,該機器人利用稱為自然語言處理(NLP)的AI的專門領域,以幫助一般醫學素養和診斷。Comendador等。建立了Pharmabot,這是一款專門為幫助父母或患者解釋通用兒科藥物的機器人。其他示例包括Ni等人的工作,其中他們建立了聊天機器人Mandy,該聊天機器人将便利與初級保健患者進行訪談以自動化患者攝入并開始診斷過程(圖1)。總體而言,面向患者的應用程式是合并AI的一個有趣領域,它有可能完全改變目前的患者護理模式。

受AI影響的醫學的另一個主要領域是早期/臨床前藥物開發,該領域受高失敗率困擾,其中超過98%的所有臨床前資産在投放市場之前就失敗了。随着高通量篩選和基因組技術的出現,研究人員變得更容易獲得可以輸入到AI架構中的大規模,受控實驗資料集。最近,我們的小組和其他研究人員表明AI可以利用龐大而多樣的資料集來解決藥物開發的多個階段,例如識别新的靶标或藥物候選物,将現有化合物定位為新的适應症或根據預測的不良事件使候選化合物脫險(圖1)。

對AI驅動的藥物發現的興趣最近導緻了許多财團的努力。例如,逆向工程評估和方法對話(DREAM)項目組織了各種挑戰,重點是臨床前研究問題,向社群開放以建立和測試計算模型。2014年,DREAM項目與美國國家癌症研究所(NCI)合作開放源代碼,以利用基因組和蛋白質組學資料預測乳腺癌中的藥物敏感性。最近,阿斯利康(AstraZeneca)與DREAM合作,利用高通量功效資料圍繞藥物組合協同效應的預測提出了新的挑戰,其中頂級方法預測了大多數協同藥物組合,其錯誤率與生物學重複相同。

總而言之,我們已經看到了如何使用廣泛的AI算法(線性模型,神經網絡,NLP等)來利用多種資料類型來解決醫學多個方面的問題。

2.何時以及如何使模型可解釋

何時承擔可解釋性的重擔

關于AI(尤其是DL)與醫學的內建的最大批評之一是認為AI是“黑匣子”。這是指這些算法如何進行預測時缺乏明确性和透明度,這歸因于DL要求大量變量(即每個神經元的權重)和複雜的基礎結構(體系結構,損失函數,激活函數等)。缺乏模型的可解釋性導緻科學界顯着地退縮,因為很多時候,預測背後的“原因”與預測本身一樣重要。這是該領域内一個經過認真辯論的主題,其中許多都指向由于僞像而實作高精度的模型示例。例如,如果一個人試圖預測患者的白細胞計數并使用一天中的時間作為輸入,那麼這可能會導緻表面上較高的準确性,因為AI知道後來抽血會導緻白細胞計數較低。該結果是由混雜影響所驅動的,在大多數醫院中,深夜抽血大多是在緊急情況下進行的,在緊急情況下患者更可能有較低的白細胞計數。盡管此類因素可能有助于提高報告的準确性,但它們在前瞻性預測中實際上沒有用。

CellPress | 醫學上人工智能的缺失

目前,有大量的研究工作正在打開難以解釋的模型的黑匣子。許多人希望為臨床任務建立可解釋的DL模型可以幫助加速這些方法在現實世界中的實施。如果臨床醫生可以輕松地了解為什麼模型預測了某種診斷/預後,他們将更願意将其用于實際患者,因為他們可以減輕對模型完全基于僞影進行預測的擔心。但是,在諸如AI在診斷中的應用的情況下,建議的工作流程将用于預測模型以指導人類決策,而醫師/醫學專家會審查每個單獨的預測,是以限制了模型完全透明的必要性。例如,目前正在進行的一項臨床試驗(臨床試驗編号:NCT03705650)正在測量EchoGPS(一種由AI驅動的軟體)在非超聲檢查專家從超聲圖像中檢測某些心髒疾病時的有效性。該軟體僅在評估超聲時指導醫療專業人員,而不是替代人類的診斷。當然,當犧牲任何數量的可解釋性時,都需要權衡取舍,盡管準确性可能更高,但是可能會保留系統性的偏差,否則可能會被捕獲。是以,在選擇如何優先考慮模型可解釋性時,了解給定模型将如何應用于現實環境中非常重要。

可解釋性和透明度特别重要的醫學領域之一是臨床前和早期藥物開發。這裡需要可解釋的模型,不僅要避免模型依賴無關變量的可能性,而且要揭示潛在的作用機理,更好了解可能會導緻更好的藥物定位和毒性意識,最終助長下一代候選藥物的産生。是以,旨在回答諸如“該藥物是否具有毒性”或“該藥物對哪種疾病有效”之類的方法的方法應確定可以清楚地闡明模型背後的原因。對模型可解釋性的這種盡職調查和優先級排序可以通過更全面地了解化合物、靶标或疾病來增強AI驅動的藥物開發。

模型選擇

模型的可解釋性可以通過多種方式實作。但是,模型的選擇和合理的特征工程可能會産生最大的影響。根據預測性能(通過測試集或交叉驗證)确定多次選擇模型。根據模型和基礎資料,更适合使用不同的名額。例如, AUROC是常用的性能名額;但是,它可能會引起誤導,并且會在類别嚴重失衡的問題上人為地誇大其詞。這些模型的性能将通過AUPRC更好地衡量。研究者探索了通過EHR預測2型糖尿病患者深度模型選擇的概念。他們的工作表明,評估各種不同的性能名額可以确定最合适的模型。但是,很多時候可以根據基礎資料來縮小選擇要測試的模型的類型。選擇正确捕捉特征之間關系的一類模型将導緻更好的性能和更高的清晰度。

線性模型的可解釋性

線性模型通常被認為是ML模型中最透明的一類,因為可變系數可以用來表示每個特征對輸出的影響。結合了套索和嶺回歸罰分的一種線性/邏輯回歸彈性網絡已被廣泛用于癌症中的生物标志物預測。由于其可解釋性。ENCAPP是一種基于彈性網絡的算法,在預測癌症的預後方面具有顯着的預測能力,并着重強調了模型中的重要變量如何代表生物标志物候選物。當線性模型适合目前的問題時,它們是一種強大的方法,可實作強大的模型可解釋性。

非線性模型的可解釋性

盡管線性模型是可以解釋的,但是當問題本質上是非線性時,它們的精度會很低。随機森林是一種基于決策樹的方法,是一種廣泛使用的非線性模型,可用于解釋。基于決策樹的模型通常可用于輸出共識樹,具有明确定義的決策點,使科學家能夠了解預測背後的潛在原因。基于決策樹的模型已成功地預測了藥物性質。通過共識樹或特征重要性分析,模型透明性的額外小步驟将廣泛有益于這些模型的實用性。

很多時候,當使用非線性相關且本質上複雜的資料類型時,就需要更複雜的模型類型,例如神經網絡。正如Wainberg等解釋說,神經網絡可以對變量互相作用進行模組化并輸出假設的中間變量,這些中間變量是隐藏層中神經元的值。Pawlowski等人證明了倒數第二層代表複雜特征的用途,當時他們使用這種特征工程技術對顯微鏡圖像中的單個細胞進行了分類。最終,徹底表達變量之間關系的能力使DL在處理複雜資料類型時成為有吸引力的選擇。

特征選擇

特征工程是提高任何算法的預測能力的另一個關鍵步驟,并且可以提高模型的清晰度。由于擁有大量可用資料,是以必須謹慎選擇功能,這不僅需要確定模型性能,而且還要確定模型的可解釋性。如果忽略或錯誤處理了特征選擇,則在不同模型類型之間可能會發生許多陷阱。例如,資料洩漏是一個問題,當包含取決于您的預測變量的功能或在預測時否則無法使用的功能時,将導緻性能名額膨脹,最終導緻模型無用,而與模型類型無關。此外,從DL模型中提取特征(涉及将最後一層的值用作特征)已成為圖像分析中廣泛使用的技術。盡管這種方法可以産生大量的資訊功能,并為模型準确性帶來有利的結果,但除非進行了适當的盡職調查,否則通常不清楚這些功能代表什麼。如果不強調建立可解釋的工具,那麼其中許多因素很容易被忽略。

CellPress | 醫學上人工智能的缺失

通常根據特征對預測能力的影響來選擇特征,這種方法可能會忽略其他關鍵特征,例如現場的先驗知識和資料可通路性。很多時候,在建立/測試預測模型的過程中進行特征選擇會确認以前已知的關聯,例如BRCA1預測會發展為乳腺癌或卵巢癌。但是,當評估大型資料集時,即使經過實驗驗證的關聯也可能被資料的整體噪聲淹沒。是以,整合專家知識的努力可以確定預測是由潛在的生物學機制驅動的,進而使該模型不僅更具解釋性,而且更加可靠。最近,Javanovic等通過結合使用傳統選擇技術和領域知識發現的特征,利用Tree Lasso正則化模型來預測小兒再入院。他們發現,與使用傳統的套索模型相比,此結果模型更易于解釋,而性能沒有明顯損失。這凸顯了一個事實,即可解釋性不需要與預測能力的權衡取舍。但是,應該指出的是,完全或過于依賴專家知識可能會加劇已知的系統偏見并限制科學發現。是以,對特征重要性的詳盡搜尋對于確定完整的模型透明度和生物學了解至關重要。

與其他方法類似,可以以簡單的方式為神經網絡完成特征貢獻的識别。一種常見的技術是向後傳播所有神經元以配置設定其貢獻。在處理圖像資料時,可以使用反向傳播建立顯著圖,該顯著圖可以直覺地表示每個特征的重要性。目前和未來的臨床面臨算法可通過合并諸如此類的特征選擇技術來受益,以幫助提高模型的可靠性,并確定它們不基于噪聲或系統偏差。

3.多樣性豐富模型的重要性

跨資料類型的多樣性

大資料時代已影響到科學的大多數方面,進而為AI提供了通過大量資料類型進行豐富訓練的機會。不幸的是,許多目前的模型方法将其自身局限于特定的資料類型。盡管這些模型已經獲得了高性能,并已證明在藥物開發和臨床流程中發揮了重要作用,但缺少各種資料類型的整合。過去的研究中,研究者已經展示了如何結合各種類型的資料來提高許多早期問題的整體預測能力和可解釋性。例如預測基因的必要性和藥物毒性。正如Cheng等人(2003)所述,異質特征的結合可以更好地捕獲潛在的機制。通過預測藥物互相作用來證明這一點。雖然此示例着重于早期發現,但具有更多樣化資料的預測能力的增強和預測模型的可解釋性适用于所有AI。當試圖回答藥物開發和臨床決策中的未解決問題時,真正的跨學科方法是獲得完整了解并獲得最準确和可靠結果的唯一方法。

CellPress | 醫學上人工智能的缺失

合并各種資料類型雖然對預測模型有價值,但必須謹慎進行,以避免常見的陷阱。由于增加的特征或更進階的模型體系結構,多樣化資料內建中的一個共同挑戰是增加了模型複雜性。一個例子是多視圖學習,這是一種增強模型體系結構以內建各種特征類型的方法,由于其靈活的體系結構,在神經網絡中尤其常見。盡管多視圖模型已經在醫學上取得了成功,例如胎兒超聲圖像,但它們的訓練難度更大,并且可能更容易過拟合。複雜模型中的一個普遍問題。但是,隻要牢記這些挑戰,合并各種資料類型将對将來的醫學模型有益。

樣本間的差異

除了合并各種特征之外,利用各種不同的樣本還可以提高模型的适用性和整體性能。通常,確定将噪聲限制在資料範圍内會導緻問題,即沒有足夠大的人口來建立有意義的預測模型。是以,隻有适當地包含不同的樣本,AI的廣泛應用才有可能。例如,在藥物開發領域,Yuan等人提出了一種多任務模型來預測不同癌症類型之間的藥物療效。由于對癌症類型和藥物化合物之間的深入研究,應該對模型進行針對特定藥物或癌症類型的訓練。但是,通過利用多任務方法模型可以從所有這些樣本中獲得的資訊中受益,最終實作更好的性能。多任務方法的應用在用于藥物開發的AI中得到了發展。這在很大程度上可以歸因于其勝過先前模型并避免諸如過度拟合之類的陷阱的能力。是以,未來在醫學中的AI應用應集中在樣本多樣性的納入上,以豐富性能并確定模型的廣泛适用性。

4.結束語

到目前為止,從實驗室到臨床的ML和AI應用都非常強大。但是,随着該領域的不斷發展,有許多事情要牢記。為了確定AI在醫學上的應用發揮出最大的潛力,重要的是生物學必須始終處于模型和實驗設計的最前沿。在早期藥物開發的情況下,可以通過在預測算法中優先考慮可解釋性來實作,進而了解潛在的生物學機制。雖然辨識生物學機制對于更多面向患者的應用可能不太重要,但強調可解釋性将有助于確定模型可靠且基于真實信号。在某些情況下,可以設想,将可解釋的AI應用于病理圖像将揭示以前看不見的模式,例如細胞之間的距離以及基質成分的重要性等。醫學天生就是跨學科的,應該反映在用于預測算法的特征和樣本中,進而允許以系統地了解問題,并在許多情況下提高準确性。測量模型性能的時代結束了。模型評估必須同時考慮性能和可解釋性。

CellPress | 醫學上人工智能的缺失

藥物發現已進入下一個領域,我們隻看到即将到來的變化的開始。我們相信,随着AI在藥物開發領域的進步,實驗工作将通過AI而不是反之為基礎。例如,使用高度可解釋的模型可以幫助您确定哪些特征最有用,進而可以相應地設計實驗篩選。此外,通過透明的AI努力,我們可以開始了解藥物背後的機制,進而可以進行更精确的臨床試驗。在許多情況下,阻止患者接受挽救生命的療法的唯一原因是對這些藥物缺乏透徹的了解。我們必須利用AI賦予我們的設計能力,

雖然建構可解釋,高度預測和強大的模型是醫學界成功進行AI研究不可或缺的一部分,但它依賴于可重複的工作。代碼共享和釋放使用的資料集是確定預測模型的可解釋性和總體有效性的關鍵。高性能ML庫已經使AI研究普遍化,并允許不僅使用這些模型,而且還被各種研究人員所了解。除了開源代碼之外,還需要使用所有使用的資料集來了解各種特征如何互相作用和影響模型,是以是建構可解釋模型的必要步驟。模型的可解釋性不僅限于建立這些工具的研究人員,而是整個領域的要求。

總體而言,人工智能已經在醫學的各個領域取得了長足的進步,從藥物發現到臨床決策。我們認為,隻有在我們繼續優先重視生物學了解和資料/模型多樣性以及預測性能的前提下,這些進步才會繼續增長。

繼續閱讀