天天看點

谷歌對無監督解耦方法進行了大規模評估,還開源了用來實驗的開發庫!

雷鋒網 AI 科技評論按:如何能夠以無監督的方式去了解高維資料,并進一步将這些知識提煉為有用的表示仍然是深度學習中的一個關鍵難題。該問題的一種解決方法便是解耦表示(disentangled representation),來自谷歌的研究人員不僅深入研究了目前最流行的解耦模型和多個解耦表示資料集,進行了大量實驗,還開源了他們的實驗庫「disentanglement_lib」。此外,與該實驗庫同時開源的還有一萬多個預訓練模型與完整的訓練測試流程。下面是雷鋒網(公衆号:雷鋒網) AI 科技評論針對這篇部落格的部分編譯。

解耦模型能夠捕捉場景中互相獨立的特征,即某種特征不會由于其他特征的改變而受到影響,實作特征之間的解耦。如果能夠成功完成特征的解耦表示,現實世界中機器學習系統(如自動駕駛汽車或者機器人)能夠将物體的屬性與其周圍環境分離,進而使得模型能夠泛化到其沒有見過的場景中。舉一個簡單的例子,一輛汽車在不同的天氣,光線條件或者地理位置等環境中,它的特征應該是不變的,如果一個模型能夠将汽車的特征與其背景環境的特征解耦,那麼有理由認為,将這個汽車放在一個模型在訓練時完全沒見到過的環境中時,模型仍然能針對汽車捕捉到不變的特征,這就意味着模型的泛化能力較強。盡管以無監督的方式進行解耦表示學習已經被用于好奇心驅動的探索(curiosity driven exploration)、抽象推理(abstract reasoning)、視覺概念學習 (visual concept learning),以及強化學習中的域适應 (domain adaptation for reinforcement learning) 等領域中,但是目前并沒有對比不同方法的有效性和局限性的研究。

在「挑戰無監督解耦表示中的常見假設」(Challenging Common Assumptions in the Unsupervised Learning of Disentangled Representations,ICML 2019 ) 這篇文章中,谷歌的研究人員對最近的無監督解耦方法進行了大規模評估,對一些常見假設進行了實驗驗證,同時也對解耦學習的未來工作提出了一些改進建議。這次評估共訓練了超過 12,000 個模型,涵蓋了大多數主流模型和評價名額,在七個不同資料集上進行可重複的大規模實驗。同時,谷歌的研究人員也開源了此次研究中的代碼和超過 10,000 個預訓練模型。開源的 disentanglement_lib 庫能夠幫助研究人員輕松地複現和驗證他們的實驗結果。

論文位址:https://arxiv.org/abs/1811.12359

「disentanglement_lib」開源庫:https://github.com/google-research/disentanglement_lib

了解解耦

為了更好的了解如何将圖像的真實屬性以解耦的方式編碼為特征,不妨先來看 Shapes3D 資料集中圖像的真值因素。在這個資料集裡,如下圖所示,每一個圖代表了可能會被編碼進最終圖像的表示向量的一個因素,共有六種,分别是地闆顔色、牆壁顔色、物體顔色、物體大小、物體形狀,以及觀察物體的角度。

谷歌對無監督解耦方法進行了大規模評估,還開源了用來實驗的開發庫!

Shapes3D 資料集真值因素的可視化:地闆顔色(上左),牆壁顔色(上中)、物體顔色(上右)、物體大小(下左)、物體形狀(下中)以及觀察物體的角度(下右)。

解耦表示的目标是建構一個能夠捕捉這些解釋因素并将之編碼為一個向量的模型。下圖展示了一個具有 10 維表示向量的 FactorVAE 模型的結果。這 10 個圖可視化了十維向量每個次元所捕捉到的資訊。從第一行的第三到第五張圖可以看到,模型成功地解耦了地闆和牆壁顔色這一屬性,而左下方的兩個圖表明物體顔色和大小兩個屬性仍然糾纏在一起。

谷歌對無監督解耦方法進行了大規模評估,還開源了用來實驗的開發庫!

FactorVAE 模型學到的潛在次元的可視化(見下文)。模型成功地解耦了地闆和牆壁顔色以及觀察物體的角度這三項真值因素(上右、上正中間以及下正中間),而物體顔色、物體大小、物體形狀三項真值因素(上左、下左兩張圖)則仍舊糾纏在一起。

大規模實驗的主要結果

盡管研究界已經提出了各種基于變分自動編碼器的無監督方法來學習解耦的表示,同時也設計了很多的度量标準來量化模型解耦的效果的好壞,但并沒有大規模的實驗研究以統一的标準評估這些方法。是以谷歌的研究者通過六種不同的最先進模型(BetaVAE,AnnealedVAE,FactorVAE,DIP-VAE I/II 和 Beta-TCVAE)和六種解耦評價名額(BetaVAE 評分,FactorVAE 評分,MIG,SAP,Modularity 和 DCI 解耦),提出了一個公平的,可複現的評價基準方案。此次評估,共在 7 個資料集上訓練和測試了 128,000 個這樣的模型。

此次研究的主要發現包括:

谷歌研究團隊沒有發現證據表明這些模型能夠以無監督的方式,可靠地學習到解耦的表示,由于随機種子和超參數似乎比模型選擇更重要。換句話說,研究者即使訓練大量的模型,其中一些模型能夠學到解耦的特征,這些解耦表示似乎無法在沒有真實标簽的情況下被識别出來。此外,在此次研究中,良好的超參數值并不适用于不同的資料集。這些結果與論文中提出的定理一緻,該定理指出,如果沒有資料集和模型的歸納偏差(inductive biases),則無法通過無監督的方式學到解耦的特征(即,必須對資料集做出假設,并融合到模型中去)

鑒于實驗中用到的模型和資料集,谷歌研究團隊無法驗證這種解耦表示是否對下遊任務有用,比如利用解耦表示來使用更少的有标注資料進行學習。

下圖展示了實驗中的一些發現。不同運作中随機種子的選擇對解耦評價名額的影響大于模型選擇和正則化強度。使用差的超參數但有較好随機種子模型的運作結果可以輕易超過有良好超參數但随機種子模型較差的運作結果。

谷歌對無監督解耦方法進行了大規模評估,還開源了用來實驗的開發庫!

左側的圖展示了不同解耦模型不同模型在 Cars3D 資料集上的 FactorVAE 分數分布。右側的圖展示了 FactorVAE 模型在不同正則化強度下的分數分布。主要的結論為這些提琴圖有很大程度的交叉,即所有的模型都很依賴于随機種子的選擇。

基于這些觀察結果,谷歌的研究者提出了四個與未來研究相關的建議:

由于無歸納偏差的無監督解耦特征學習是不可能的,未來的工作應該更清楚地描述所加入的歸納偏差,以及加入隐性或顯性監督的作用。

如何找到适用于多個資料集和無監督模型的歸納偏差仍是一個重要問題。

需要展示出學習到解耦特征的具象化的實際好處。比較可行的方向包括機器人技術、抽象推理 (abstract reasoning) 和公平性分析 (fairness)。

需要在更多資料集上設計可複現的實驗。

開源的 disentanglement_lib

為了能夠讓其他人驗證此次實驗的結果,谷歌研究團隊還開源了用來進行實驗的開發庫:disentanglement_lib。它包含了上述涉及到的解耦方法、評價名額的開源實作、标準化訓練測試流程以及更好了解模型的可視化工具。

disentanglement_lib 有三個方面的優點:

首先,隻需不到四個 shell 指令,disentanglement_lib 即可複現上述研究的任何模型。

其次,研究人員可以很容易的基于此研究進行修改,來驗證其他假設。

第三,disentanglement_lib 易于拓展,是一個好的入門解耦表示的方法,同時能夠很容易的使用這個庫來實作新模型,并将之與其他模型進行比較。

從頭訓練此次研究中的所有模型需要大概 2.5GPU 年的時間,對于一般研究者來說這可能是不現實的,是以谷歌同時開源了超過 10,000 個預訓練模型,可以與 disentanglement_lib 一起使用。

disentanglement_lib 允許其他研究人員将他們的新模型與的預訓練模型進行對比,并在各種模型上測試新的解耦度量标準和可視化方法,有望能夠推動該領域進一步向前發展。

via Google AI Blog ,雷鋒網(公衆号:雷鋒網) AI 科技評論編譯

繼續閱讀