天天看點

【論文學習筆記】Transductive Unbiased Embedding for Zero-Shot Learning (2018_CVPR)IntroductionQuasi-Fully Supervised Learning (QFSL)ExperimentsConclusion & Future work

論文:Transductive Unbiased Embedding for Zero-Shot Learning

連結:http://openaccess.thecvf.com/content_cvpr_2018/CameraReady/1369.pdf

【論文學習筆記】Transductive Unbiased Embedding for Zero-Shot Learning (2018_CVPR)IntroductionQuasi-Fully Supervised Learning (QFSL)ExperimentsConclusion & Future work

  這篇文章是來自CVPR 2018的一篇文章,這篇文章主要的貢獻是提出了一個偏置損失函數,同時提出了一個端到端的網絡。下面本部落格對這篇文章進行帶有PPT的圖檔進行講解,若有描述不對的地方,還請各位讀者指教。

  本文的三作是亞利桑那州立大學的教授,五作是浙江大學的教授,一作、二作是來自浙江大學,四作是來自阿裡巴巴(在谷歌學術上未搜尋到相關的資訊)。本文從以下四個方面進行學習。

【論文學習筆記】Transductive Unbiased Embedding for Zero-Shot Learning (2018_CVPR)IntroductionQuasi-Fully Supervised Learning (QFSL)ExperimentsConclusion & Future work

Introduction

【論文學習筆記】Transductive Unbiased Embedding for Zero-Shot Learning (2018_CVPR)IntroductionQuasi-Fully Supervised Learning (QFSL)ExperimentsConclusion & Future work

  對于Zero-shot Learning來說,最簡單最經典的就是解決分類問題,即預測訓練階段沒見到過的類别。相信大家對ZSL有一定的了解,DeViSE就是其中很經典的論文之一(https://papers.nips.cc/paper/5204-devise-a-deep-visual-semantic-embedding-model.pdf) 詳情可以從這個連結下載下傳論文,後續本人也會将這些論文的學習筆記補上。在這篇論文的其中一個實驗看來,可以發現所有“+1k”(即在測試階段預測時不僅要考慮之前訓練的種類,還要考慮已給的測試集的種類),相比隻預測測試集類别的資料集來說準确率下降了很多。不僅這篇論文,下面這篇論文也是一樣。

【論文學習筆記】Transductive Unbiased Embedding for Zero-Shot Learning (2018_CVPR)IntroductionQuasi-Fully Supervised Learning (QFSL)ExperimentsConclusion & Future work

  這篇論文也是ZSL的一篇經典之作,提出了ConSE:Convex combination of semantic embedding(https://arxiv.org/pdf/1312.5650)。從這個實驗也可以看出,在加了“+1k”這樣處理後的資料集的效果是不樂觀的。

【論文學習筆記】Transductive Unbiased Embedding for Zero-Shot Learning (2018_CVPR)IntroductionQuasi-Fully Supervised Learning (QFSL)ExperimentsConclusion & Future work

  當然,在這兩篇論文中,作者都有說到:這可能是偏置的問題,訓練時隻針對了訓練集的類别進行訓練,是以在測試階段預測會導緻Strong bias problem。由上面的這張PPT作者也對這種強偏置的現象做了可視化的一個展示。左邊的source表示的是訓練集,右邊的tartget表示的是測試集。在模型訓練的時候,是在一個隻有訓練集類别的語義空間中進行的,是以在測試階段,輸入的如狗和貓的圖檔,他會偏向我們的訓練集的語義空間。

  針對這種Strong bias的問題,本文的作者提出了Quasi-Fully Supervised Learning (QFSL)來解決。

【論文學習筆記】Transductive Unbiased Embedding for Zero-Shot Learning (2018_CVPR)IntroductionQuasi-Fully Supervised Learning (QFSL)ExperimentsConclusion & Future work

  首先,先介紹一下一些實驗的設定。

  對于樣本,本論文實驗分為了source class和target class兩種。source class 就是我們的訓練集,已經有了标簽的資料集;而target classes 是我們的測試集,是沒有被标注過的資料。

【論文學習筆記】Transductive Unbiased Embedding for Zero-Shot Learning (2018_CVPR)IntroductionQuasi-Fully Supervised Learning (QFSL)ExperimentsConclusion & Future work

對于zero-shot learning的方法,可以将其分為inductive ZSL 和 transductive ZSL 兩類。

  1. inductive ZSL:在訓練的階段,隻有訓練集模型是可見的,訓練好了一個模型後,再用它來預測沒有見過的類别。這個是最常見到的方式,我們前面所提到的DeViSE和ConSE兩種方法都是屬于這種方式。
  2. transductive ZSL :在訓練階段,标注過的原始資料類别和未标注過的測試資料類别都在訓練過程中可見的。本文的實驗就是基于這個方式呈現的。作者認為标注的資料和未标注的資料都有他各自的作用。

       對于這些标注過的訓練的資料而言,他們能學習圖像特征和語義向量空間之間的關系。ZSL也就是通過這樣的管道連接配接圖檔與标注的聯系,使得其能夠預測unseen label。

       對于那些未标注過測試的資料而言,他們雖然不知道真正的label是什麼,不能産生分類的loss進行反向傳播。但這篇論文所提出的loss就是由其産生,并能夠緩解這種預測偏向原始資料類别的程度。

【論文學習筆記】Transductive Unbiased Embedding for Zero-Shot Learning (2018_CVPR)IntroductionQuasi-Fully Supervised Learning (QFSL)ExperimentsConclusion & Future work

  對于實驗設定,有兩種方式:傳統設定和廣義設定(好像這樣翻譯不是很到位-_-)。傳統設定就是指的在測試階段,隻預測測試集的那些類别;而廣義設定,指的是在測試階段的時候不擔需要考慮我們的測試的類别,還需要考慮訓練集的類别。本文的實驗部分在這兩種方式下都有進行實驗,并取得了很好的結果。

Quasi-Fully Supervised Learning (QFSL)

本文重點!

【論文學習筆記】Transductive Unbiased Embedding for Zero-Shot Learning (2018_CVPR)IntroductionQuasi-Fully Supervised Learning (QFSL)ExperimentsConclusion & Future work

  首先是一些符号的定義:這張ppt上半部分,都是較簡單的一些定義,本文就不贅述了。ppt下半部分就是對ZSL的一般情況進行了陳述,也是本文的baseline(這點文章沒有說明,本人觀點)。對于ZSL,就是需要從訓練集學習到一個預測函數f,來預測新類别的圖檔。其中的函數F是一個得分函數,是由 θ(x) θ ( x ) 從visual model 中計算出的圖像特征, W W 是一個矩陣,ϕ(x)ϕ(x)從language model中的出的語義向量。接下來就是 L L loss值的計算了,loss包括了兩大部分:分類的loss 和一個正則化懲罰項。

  對于本文的實驗,在訓練階段,source data,target data 和ϕ(x)ϕ(x)都是已知的。

【論文學習筆記】Transductive Unbiased Embedding for Zero-Shot Learning (2018_CVPR)IntroductionQuasi-Fully Supervised Learning (QFSL)ExperimentsConclusion & Future work

  敲黑闆!!!這個就是本文所提出的網絡了。需要強調的是,為了友善看是以才畫了兩個輸入流,一個是source,一個是target。在訓練階段直接是一張一張圖檔輸入的。

   網絡分為了四大部分:

  1. The visual embedding subnet (本人認為論文的圖示錯了,不是semantic emedding layer,而是visual)
  2. The visual-semantic bridging subnet
  3. The scoring subnet
  4. The classifier

      下面,詳細介紹一下這四個部分。

【論文學習筆記】Transductive Unbiased Embedding for Zero-Shot Learning (2018_CVPR)IntroductionQuasi-Fully Supervised Learning (QFSL)ExperimentsConclusion & Future work

   在這個部分,就是對圖檔進行了特征提取。和其他的論文一樣都是采用了預訓練的卷積神經網絡。但是這一點不同:這個CNN模型在這個網絡的訓練過程中,他的參數也是随着不斷疊代更新的。其他的方法使用的預訓練好的模型的權重都fixed了,而本文cnn的權重不斷變化。

   關于權重的固定與否,是否能給網絡效果帶來幫助,在本文的實驗中會有證明。

【論文學習筆記】Transductive Unbiased Embedding for Zero-Shot Learning (2018_CVPR)IntroductionQuasi-Fully Supervised Learning (QFSL)ExperimentsConclusion & Future work

   在圖檔特征與語義向量轉換連接配接的部分中,作者采用了幾個全連接配接層來實作(但是具體是幾個呢?本文好像沒說,隻說明了這個是根據前一部分的網絡模型來設計的)。在每個全連接配接層的後面都有跟着一個激活層,有一個統一的激活函數ReLU。同樣的,在網絡的訓練過程中,改層的權重參數是不斷疊代更新的。

【論文學習筆記】Transductive Unbiased Embedding for Zero-Shot Learning (2018_CVPR)IntroductionQuasi-Fully Supervised Learning (QFSL)ExperimentsConclusion & Future work

   在這一部分是用來計算類别得分的,是由一個全連接配接層實作的。采用了最鄰近搜尋的方法進行搜尋最鄰近的語義向量。該層的權重都是由每一個class的語義标準化向量來初始化的。具體可以見上面的ppt。與其他的層不同的地方在于:這一層的權重是固定的,不像其他層的參數是會在網絡訓練過程中優化的。 F F 函數計算出來的是 S+TS+T 個分數。

   這篇論文好像沒有說明semantic vector是如何構造的,是采用了标準的one-hot的方式還是其他的呢?這裡既然出現了 S+T S + T 個分數,是通過計算的來了,和前面說的NNS這樣的搜尋方法有啥關系呢,這個計算公式就是屬于NNS嗎?

【論文學習筆記】Transductive Unbiased Embedding for Zero-Shot Learning (2018_CVPR)IntroductionQuasi-Fully Supervised Learning (QFSL)ExperimentsConclusion & Future work

   最後一部分的分類器層就很簡單了。就是一個傳統的sotmax分類器,直接是輸出每一類的機率。

【論文學習筆記】Transductive Unbiased Embedding for Zero-Shot Learning (2018_CVPR)IntroductionQuasi-Fully Supervised Learning (QFSL)ExperimentsConclusion & Future work

   如上面的PPT所示,這個就是本文的Loss函數。第一個是分類的損失函數,就是熵損失函數;第三個是正則化懲罰項,本文是采用了L2。值得關注的是第二個loss, Lb L b ,用來計算偏置的loss。容易看出 −ln(x) − l n ( x ) 是一個單調遞減的函數,要使得這個loss降低,即要增大x,對于本公式而言,就是增大 pi p i ,而這個 pi p i 表示的就是預測的這張圖檔屬于target classes的機率值。這樣的操作,鼓勵了模型增加預測出所有target classes的機率。

Experiments

本文的實驗部分也是相當豐富。

【論文學習筆記】Transductive Unbiased Embedding for Zero-Shot Learning (2018_CVPR)IntroductionQuasi-Fully Supervised Learning (QFSL)ExperimentsConclusion & Future work

   首先,是實驗部分的資料集和模型的介紹。采用了AwA2, CUB, SUN三大類的資料集來進行實驗。值得注意的是:對于訓練集和測試集的劃分,由兩種方式:standar splits (SS)和 splits proposed (PS)。

   對于之前講述的網絡的第一部分的CNN model,本文實驗測試了四種:AlexNet, GoogLeNet, VGG19 and ResNet101。他們都是在imagenet 1k的資料集上進行了預訓練。

【論文學習筆記】Transductive Unbiased Embedding for Zero-Shot Learning (2018_CVPR)IntroductionQuasi-Fully Supervised Learning (QFSL)ExperimentsConclusion & Future work

   接下來,是對實驗訓練階段的參數設定和測試的評估政策。超參數的初始化,見上面的PPT。實驗所使用到了評估政策是平均類準确率(MCA)。由于本文實驗的設定,是以出現了兩類mca,在驗證集上的準确率和在測試集上的準确率。将兩者合一,有了H這個準确率的計算。

【論文學習筆記】Transductive Unbiased Embedding for Zero-Shot Learning (2018_CVPR)IntroductionQuasi-Fully Supervised Learning (QFSL)ExperimentsConclusion & Future work

   第一個實驗:探究我們的CNN模型的權重參數是否需要固定?

【論文學習筆記】Transductive Unbiased Embedding for Zero-Shot Learning (2018_CVPR)IntroductionQuasi-Fully Supervised Learning (QFSL)ExperimentsConclusion & Future work

  在這個實驗可以看到隻考慮到了兩種CNN模型,作者給出的解釋為:googlenet和resnet101兩種網絡和如圖所示的網絡結果類似,是以就沒有貼出來。實驗的評估為Performance difference = MCA(unfixed) − MCA(fixed) ,如果結果為正,表明unfixed會更好;反之,則表明fixed效果更好。

  通過這個實驗,可以看出在CUB和AwA2這兩個資料中,unfixed 的這樣的設定,網絡的結果會更好,也證明了作者的想法是有效的。但是在SUN的資料集中,表現的不是很好,作者猜測:由于SUN這個資料集訓練的樣本數量太少的原因導緻的。因為AwA2資料集中每個類包含750張圖檔,CUB資料集中每個類包含60張圖檔,然而在SUN的資料集上,每個類僅僅隻有20張圖檔。

【論文學習筆記】Transductive Unbiased Embedding for Zero-Shot Learning (2018_CVPR)IntroductionQuasi-Fully Supervised Learning (QFSL)ExperimentsConclusion & Future work

   為了進一步證明作者的猜測的正确性,作者進行了第二個實驗。這個實驗采用的資料是AwA2資料集,不斷的增加訓練樣本每一類的數量,在上圖中,我們很直覺的能看出随着樣本數量的增加,我們的準确率呈現出單調遞增的這樣的趨勢,充分的證明了我們猜測的正确性。

【論文學習筆記】Transductive Unbiased Embedding for Zero-Shot Learning (2018_CVPR)IntroductionQuasi-Fully Supervised Learning (QFSL)ExperimentsConclusion & Future work

   對于我們的偏置項的損失,其權重的取值也很關鍵,在第三個實驗中,就是來探究,我們這個損失值權 λ λ 到底取值多少合适?

【論文學習筆記】Transductive Unbiased Embedding for Zero-Shot Learning (2018_CVPR)IntroductionQuasi-Fully Supervised Learning (QFSL)ExperimentsConclusion & Future work

   在這個實驗可以看出當我們的 λ λ 不斷的增加時,對于MCAs會呈現降低的趨勢,而這個就是由于 λ λ 取值過大,使得預測的注意力都偏向于那些unseen的label上面了。通過這個實驗,可以看出, λ λ 的取值在0.5到2這個區間範圍内效果最佳。

   探究完了網絡内部的問題,就來看看在具體的資料集上與其他方法比較多結果吧。

【論文學習筆記】Transductive Unbiased Embedding for Zero-Shot Learning (2018_CVPR)IntroductionQuasi-Fully Supervised Learning (QFSL)ExperimentsConclusion & Future work

   在本實驗中,采用的實驗模式為傳統的模式,即在預測階段,我們隻考慮測試集上的classes,隻在這裡去尋找語義向量。其中, QFSL− Q F S L − 表示的是我們的baseline。通過實驗,可以看出我們的baseline與其他方法相比,具有一定的可比性;而且本文提出的方法占有絕大部分的優勢,特别是在CUB和AwA2這兩個資料集上,本文方法和baseline的效果都超過了其他的方法。

   值得說明的是,通過之前的實驗,在CUB和AwA2這兩個資料集采用unfixed的操作,在SUN資料集上,采用fixed的操作。

【論文學習筆記】Transductive Unbiased Embedding for Zero-Shot Learning (2018_CVPR)IntroductionQuasi-Fully Supervised Learning (QFSL)ExperimentsConclusion & Future work

  在之前的實驗中,我們的方法都表現出了極大的優勢。是否是我們使用的卷積神經網絡的問題呢?換過一個CNN Model效果是否一樣?這個實驗就表明了本文提出的方法不是隻用于特定的網絡,在其他的CNN中,依舊能表現出優異的效果。

【論文學習筆記】Transductive Unbiased Embedding for Zero-Shot Learning (2018_CVPR)IntroductionQuasi-Fully Supervised Learning (QFSL)ExperimentsConclusion & Future work

  在傳統的設定實驗中,我們的方法取得了很好的效果。在本實驗中,來探究一下是否在廣義的實驗設定中,也能取得很好的效果呢?通過這個實驗,我們可以看出,我們的方法也是效果顯著的。在SUN資料集上出現了劣勢,作者給出的解釋為:訓練樣本的缺乏。 QFSLR Q F S L R 為使用resnet101網絡作為圖像特征提取的網絡,其效果較 QFSLG Q F S L G 更不好,給出的解釋為:resnet101網絡,具有過拟合的現象。

【論文學習筆記】Transductive Unbiased Embedding for Zero-Shot Learning (2018_CVPR)IntroductionQuasi-Fully Supervised Learning (QFSL)ExperimentsConclusion & Future work

  本實驗為探究性的實驗,作者探究了 the source and the target classes 對實驗的影響。使用到的資料集為SUN,其一共有717個類,645作為訓練,72作為測試。現把訓練集的數量分割為7種情況,測試的類别不變。如上面的PPT可以很直覺的看出,随着source classes數量的增加,MCAs越來越不好,即對訓練集中的驗證集表現不好;而MCAt越來愈好;同時MCAt的本文方法與baseline都有增加,但是其最後的差距會越來越大。

Conclusion & Future work

【論文學習筆記】Transductive Unbiased Embedding for Zero-Shot Learning (2018_CVPR)IntroductionQuasi-Fully Supervised Learning (QFSL)ExperimentsConclusion & Future work

  本文提出了解決強偏置問題的損失函數,在ZSL中取得了很好的效果。并且,與其他效果的方法在傳統設定和廣義設定中都取得了很好的效果。

  作者今後,還會對語義空間中的語義向量的表示進一步的探究,到底哪一種向量表示形式禅師的效果會更好一些。另外,本文是基于transductive的方式進行探究的,今後還會探究在introductive的方式效果如何。

【論文學習筆記】Transductive Unbiased Embedding for Zero-Shot Learning (2018_CVPR)IntroductionQuasi-Fully Supervised Learning (QFSL)ExperimentsConclusion & Future work

歡迎各位留言交流1

繼續閱讀