小樣本學習&元學習經典論文整理||持續更新
核心思想
本文主要是針對度量學習算法中的特征提取階段進行了改進,之前的特征提取網絡或者說嵌入式表征的(Embedding Representation)過程是與任務無關的(Task-agnostic),這就要求在訓練集上得到的特征提取網絡,要有足夠強的泛化能力,使其提取的特征資訊同時滿足測試集中未見過的新樣本。這一要求無疑是很難實作的,作者就想到讓特征提取網絡有針對性地提取與任務有關的(Task-specific)特征資訊,這樣就能更好的适應測試集中未見過的新樣本了。為了實作這一目标,作者設計了一個自适應的Transformer,用于将任務無關的特征資訊轉換成任務相關的,這一結構本質上采用了自注意力機制(Self-attention Mechanism)。整個網絡的處理過程如下圖所示
首先,使用普通的特征提取網絡 E \textbf{E} E提取各個樣本的特征資訊 ϕ x \phi_x ϕx,然後利用變形器 T \textbf{T} T将其轉化為任務相關的特征資訊 ψ x \psi_x ψx,最後通過任意的距離度量方式尋找到與測試樣本最接近的訓練樣例,實作分類。這裡的變形器 T \textbf{T} T所采用的自注意力機制,我們在之前的文章中也有提及論文閱讀筆記《Attentive Weights Generation for Few Shot Learning via Information Maximization》,它儲存了一種三元資訊—— Q Q Q(query), K K K(key), V V V(value),其計算過程如下
其中 W Q T , W K T , W V T W_Q^T,W_K^T,W_V^T WQT,WKT,WVT分别表示三個線性映射的權重,也可以了解為是三個全連接配接層的權重值, ϕ x \phi_x ϕx就是普通特征提取網絡得到的特征資訊了,而 Q , K , V \mathcal{Q},\mathcal{K},\mathcal{V} Q,K,V表示樣例集合,有兩種建構方式,第一種就是 Q = K = V = X t r a i n ∪ x t e s t \mathcal{Q}=\mathcal{K}=\mathcal{V}=\mathcal{X}_{train}\cup x_{test} Q=K=V=Xtrain∪xtest此時 Q , K , V \mathcal{Q},\mathcal{K},\mathcal{V} Q,K,V三者相同,隻包含未見過的新樣本的支援集和對應的查詢集,而第二種方式則保持 Q \mathcal{Q} Q不變, K , V \mathcal{K},\mathcal{V} K,V建構方式如下
K = V = X t r a i n ∪ x t e s t ∪ X t r a i n S \mathcal{K}=\mathcal{V}=\mathcal{X}_{train}\cup x_{test}\cup \mathcal{X}^S_{train} K=V=Xtrain∪xtest∪XtrainS其不僅包含未見過的新樣本,而且還包含了部分訓練過程中見過的樣本 X t r a i n S \mathcal{X}^S_{train} XtrainS,為了友善實作, X t r a i n S \mathcal{X}^S_{train} XtrainS中每種類别隻保留了兩個樣本。
在經過線性映射得到 Q , K , V Q,K,V Q,K,V後,分别計算 Q Q Q中每個樣本與 K K K中每個樣本相似性 α q k \alpha_{qk} αqk,計算過程如下
并将其作為權重,用于計算任務相關的特征資訊 ψ x q \psi_{x_q} ψxq,計算過程如下
其中 V : , k V_{:,k} V:,k表示 V V V中的第 k k k列。
實作過程
網絡結構
普通的特征提取網絡可采用Conv或ResNet網絡,分類器可采用Matching Net或Prototypical Net網絡結構。
損失函數
為了訓練變形器中的線性映射層 W Q T , W K T , W V T W_Q^T,W_K^T,W_V^T WQT,WKT,WVT,在普通的分類損失基礎上,增加了對比損失(contrastive loss),計算過程如下
訓練政策
整個網絡的訓練過程如下
算法推廣
本文提出的方法還可以應用于直推小樣本學習(Transductive FSL)和廣義小樣本學習(Generalized FSL)。
創新點
- 提出了一種基于自注意力機制的變形器,将任務無關的特征資訊轉換為任務相關的特征資訊
算法評價
之前對于特征提取網絡的研究,通常是對任務無關的通用型的網絡開展的,通過提高其對于各類樣本,尤其是新樣本的泛化能力,來改善小樣本分類的效果。而本文則是提出了任務相關的特征提取網絡,針對每種類别的樣本,提取特定的資訊用于改善分類效果。而且作者的改進相當于在原有的特征提取網絡+分類器的結構中增加了一個變形器,變成特征提取網絡+變形器+分類器的結構,這使得其能夠很容易的嵌入到其他的算法中,起到一個即插即用的效果。
如果大家對于深度學習與計算機視覺領域感興趣,希望獲得更多的知識分享與最新的論文解讀,歡迎關注我的個人公衆号“深視”。