天天看點

Nat. Mach. Intell. | 深度神經網絡中的捷徑學習

Nat. Mach. Intell. | 深度神經網絡中的捷徑學習

今天給大家介紹來自德國蒂賓根大學的Robert Geirhos和加拿大多倫多大學的Claudio Michaelis等人發表在Nature Machine Intelligence的文章“Shortcut learning in deep neural networks”。文章認為有很多種深度學習(DL)案例的失敗可以看作是同一個問題——捷徑學習(Shortcut Learning)的不同表現。捷徑學習是在标準基準上性能良好但是在更具挑戰性的測試條件上表現較差的決策規則(decision rule)。捷徑學習可能是生物和機器學習系統的一個共同特征。基于此,作者提出了一些關于模型解釋和基準測試的建議,并且介紹了機器學習(ML)從實驗到實際應用提高魯棒性(robustness)和可移植性(transferability)的最新進展。

1

介紹

深度學習領域正在蓬勃發展,據報道,深度神經網絡(Deep Neural Networks,DNNs)以越來越快的速度取得了人類級别的對象分類性能,對我們的生活和社會産生了巨大的影響。

但是,深度學習仍處于發展的開端,科研人員缺乏對其基本原理和局限性的深入了解。在深度學習應用程式的社會影響日益增長的現在,這成為了迫切需要解決的問題。如果我們信賴自動駕駛算法駕駛汽車,如果我們使用神經網絡在工作中進行評估,如果我們癌症篩查需要深度學習的幫助,那麼我們必須明确——深度學習是怎麼工作的?什麼時候會犯錯誤?以及犯錯的原因?

Nat. Mach. Intell. | 深度神經網絡中的捷徑學習

圖1.深度學習失敗案例

通過對深度學習局限性的觀察,可以找到它大量的失敗案例(圖1)。一方面是超人的性能,一方面是驚人的失敗,這兩者之間的差異如何調節?根據觀察可以發現,許多失敗案例并非個例,而是與DNNs使用捷徑政策互相關聯。DNNs經常通過走捷徑而不是學習預期方案(intended solution)來解決問題,進而導緻泛化(generalisation)的缺乏,這種現象可以在很多實際應用中觀察到。是以雖然捷徑政策表面上是成功的,但情況稍有不同就會失敗。捷徑學習并不是一種新現象,它有很多不同的術語名稱,例如“協變移位學習 ”、“反因果學習”、“資料集偏差”、“坦克傳奇 ”和“聰明漢斯效果”等。在很多特定的深度學習領域都出現了捷徑學習的問題,如計算機視覺(Computer Vision)、自然語言處理(Natural Language Processing)、基于 Agent(強化)學習(Agent-based(Reinforcement) Learning)和公平性和算法決策(Fairness & algorithmic decision- making)等。

本文針對這些可以統稱為捷徑的現象提出一個統一的看法,并闡述在理論和實踐中為解決這些問題采取的方法。

2

主體内容

2.1定義捷徑:決策規則的分類法

在人工神經網絡中的捷徑學習是怎麼樣的呢?作者通過一個簡單的分類問題(區分星星和月亮)進行舉例(圖2)。預期方案是基于對象形狀進行分類,實際模型學習的捷徑方案是基于對象位置進行分類,因為神經網絡不能從訓練資料中判斷出預期方案和捷徑方案的差異。

Nat. Mach. Intell. | 深度神經網絡中的捷徑學習

圖2.神經網絡中捷徑學習例子

一般來說,任何神經網絡都會執行一個定義輸入和輸出之間關系的決策規則。為了将捷徑與其他決策規則區分開,作者引入一種決策規則的分類方法(圖3)其中包含:

所有可能的方案(含無法處理資料的方案);

可解決訓練集的方案(含過拟合);

可解決i.i.d.測試的方案(包括捷徑學習)(i.i.d.(independent and identically distributed):獨立同分布資料集;o.o.d.(out-of-distribution):分布外資料集。);捷徑學習在訓練集和i.i.d.測試集上性能良好(标準基準排行榜的分高),但是在o.o.d.泛化測試中性能糟糕。

期望方案:在i.i.d.測試集和o.o.d.測試集上都可以運作。

Nat. Mach. Intell. | 深度神經網絡中的捷徑學習

圖4

捷徑從哪裡來?

作者認為,需要從兩方面考慮這個問題。一是資料中存在的捷徑機會(或捷徑特征);二是如何組合不同的決策規則的特征。它們共同決定了模型的泛化方式。

訓練資料集中,對象和背景或上下文之間的系統關系很容易創造出捷徑機會,就像DNNs可以識别出草地上的牛,卻無法識别海邊的牛(圖4 a);郁郁蔥蔥的草地會被DNNs誤判為一群放牧的羊群(圖1)。捷徑機會是無處不在的,當資料集的規模簡單地按一定數量級放大時,捷徑機會就會出現。

除此之外,DNNs十分依賴紋理和其他局部結構進行對象分類,而忽略了對象全局形狀。如DNNs認為模型訓練時學習紋理特征比學習全局形狀特征更有效,但實際測試時模型會将貓的圖像歸類為大象(圖4 b),這就是模型中的捷徑學習。判别學習(DIscriminative learning)可以選擇解決給定資料集測試的可靠特征,但是它并不知道實際的測試情況,不知道如何将用于區分的特征與定義對象的其他特征相結合。

Nat. Mach. Intell. | 深度神經網絡中的捷徑學習

圖5:圖像分類

既然了解了捷徑的來源,那麼如何發現它們呢?

實驗證明,捷徑學習可以通過泛化測試發現。在泛化測試中,DNNs将圖4 c錯誤判斷為吉他,該實驗發現DNNs似乎學會了檢測某些特征而代替了吉他,是以在i.i.d.測試集性能良好的政策在o.o.d.資料上性能糟糕。這說明人類預期方案和模型實際學習的方案之間存在這差異,泛化失敗既不是學習的失敗也不是泛化的失敗,而是沒有按預期方向泛化的失敗。

2.3診斷了解快捷學習

目前捷徑學習有很多元素已經被發現并且取得了實質性進展,但是開發者都是在沒有一個普遍認可的政策下來探索方法的。是以作者介紹了診斷和分析捷徑學習的三個可行步驟。

1)仔細分析結果

目前機器學習領域最流行的基準測試仍然是i.i.d.測試,這使人們不再需要驗證測試性能與人們真正該興趣的基礎能力(underlying ability)之間是否有關系。如原本計劃用來衡量模型“識别對象”能力的ImageNet資料集,實際發現DNNs似乎主要依賴“對紋理塊的計數”來通過測試。是以可以得出,模型簡單通過資料集測試和模型實作了人們期望的基礎能力之間是不一樣的。資料集隻有能很好地代表人類真正感興趣的功能時才是有用的資料集。

動物通常以一種意想不到的方式解決一個實驗範式,而未使用人們真正感興趣的能力,進而欺騙了實驗者。摩根法則(Morgan's Canon)提到,如果可以用較低的心理過程來解釋某種行為,那麼絕将其歸因于進階的心理過程,即法則否認了“人類思維模式和處理問題的方法很容易被非人類利用“的觀點。但在算法層面,通常有一種預設的假設(same strategy assumption),如果模型有類人的表現,那麼它采取的政策也是類人的。同理,在深度學習中,DNN單元不同于生物神經單元,但是如果DNNs成功識别了對象,那麼很自然地假設它們像人類一樣使用物體形狀來識别。

是以我們需要區分模型在資料集的性能表現與實際擷取的能力之間的關系,在将“物體識别”或“語言了解”等進階能力賦予模型前要非常謹慎,因為通常有一個更簡單的解釋:“永遠不要将能用捷徑學習充分解釋的結果歸因于進階能力。”

2)面向o.o.d.泛化測試以檢測捷徑學習

通過i.i.d測試集上的驗證性能來衡量模型性能是大部分機器學習基準測試的核心。但是在現實世界中,i.i.d.假設很少是合理的。如果模型性能僅在i.i.d.測試資料上進行評估,那麼就無法發現模型是否真的采用了預期方案,因為模型利用捷徑也會在标準名額上産生虛假的好結果。

是以,作者希望能夠确定一個足夠簡單有效的o.o.d.測試來取代i.i.d.測試,成為未來機器學習模型基準測試的新标準方法。作者認為優秀的o.o.d.測試至少要滿足以下三個條件:

有一個明确的分布變化。

有一個明确定義的預期解決方案。

是一個大多數現有的模型都認為具有挑戰性的測試集。

目前表現優秀的o.o.d.基準有Adversarial  attacks、ARCT with removed shortcuts、Cue  conflict  stimuli、ImageNet-A、ImageNet-C、ObjectNet、PACS和Shift-MNIST / biased CelebA / unfair dSprites。

3)為什麼學習捷徑

對于DNNs來說,利用捷徑比學習預期的解決方案要容易得多。但是,是什麼因素決定一個解決方案是否容易學習?對于機器來說,解決方案是否容易學習不僅僅取決于資料,而且取決于機器學習算法的四個組成部分:架構(architecture)、訓練資料(training data)、損失函數(loss function)和優化(optimisation),他們被稱為模型的歸納偏向(inductive bias)。歸納偏向會影響某些解決方案比其他方案更容易學習,進而使模型決定學習捷徑方案而不是預期方案。

2.4目前幾種有前途的解決捷徑的方法

機器學習普遍存在缺乏分布外泛化的問題。是以,機器學習研究的很大一部分都與克服捷徑學習有關。作者簡單列舉了幾種前景很好的解決方法,每一種都提供了超越捷徑學習的獨特視角,例如特定領域的先驗知識(Domain-specific prior knowledge)、對抗樣本和魯棒性(Adversarial examples and robustness)、領域自适應,領域泛化和領域随機化(Domain adaptation, -generalisation and -randomisation)、公平性(Fairness)、元學習(Meta-learning)和生成模型和disentanglement(Generative modelling and disentanglement)。

3

總結

雖然深度學習在過去幾年裡取得了巨大的進步,但仍然在模型如何從資料中學習方案的原理了解和局限性方面落後。如何克服捷徑學習的問題不僅與機器學習的目前應用領域相關,未來可能還會與其他學科交叉融合。是以,為了深入了解捷徑學習,進而減輕它的影響,作者提出了四條建議:

捷徑學習無處不在,讓不同領域通過它聯系起來

仔細分析結果

使用o.o.d.測試集進行泛化

了解解決方案容易學習的原因,弄清歸納偏向四個因素的影響以及彼此之間的互相作用。

捷徑學習是實作公平、健壯、可部署和值得信賴的機器學習的主要障礙之一。雖然完全克服捷徑學習可能是無法實作的,但任何減輕捷徑學習影響的進展都将使模型所學解決方案和預期解決方案取得更好的一緻性。這就保證了機器即使是在遠離訓練經驗的情況下也能表現得可靠。此外,機器決策将是以變得更加透明,能夠更容易地檢測和消除偏差。目前,關于捷徑學習的研究仍然在不同社群中開展作者希望能推進讨論,建立替代目前i.i.d測試的o.o.d新标準範式。

繼續閱讀