天天看點

Zero-shot learning(一):ZSL的基本概念Zero-shot learning(一):ZSL的基本概念一、Zero-shot learning的基本概念二、Zero-shot learning的的方法概述

**

Zero-shot learning(一):ZSL的基本概念

-------好久沒中一區論文了,在此立個旗。今天把所有的思路整理出來,看過的論文之類的羅列出來。有錯誤的地方大家批評指正,内容多數是各界大牛的論文,大家一起研究。本文内容大家也可以随便轉發或copy。

-------這一章都是基本概念,初學者、或者是對概念不清楚的等同行可以進來看看。基礎比較深厚的可以去看後面的内容,或者不看,輕噴,以讨論為主。

--------關于小明如何認識斑馬的悲慘介紹我就不說了,剛進來的同學直接參考下面這個連結吧。

https://blog.csdn.net/tianguiyuyu/article/details/81948700

https://zhuanlan.zhihu.com/p/34656727

--------這個連接配接就先初步的不帶任何學術的讓你知道什麼是Zero-shot learning,同時裡面還介紹了幾個小小的資料集。

一、Zero-shot learning的基本概念

-------zero/one/few shot learning 是遷移學習的一種,是需要考慮源域和遷移域等問題的。

-------需要寫在前面的一些小概念,方面閱讀後面的文章:

類原型Class Prototypes : 詳細閱讀本文屬性空間介紹部分即可知道原型的含義。

--------Zero-shot learning依賴于存在的一組有标記的訓練類,以及關于一個不可見類如何與所見類在語義上相關的知識。可見和不可見的類通常在高維向量空間中相關,稱為語義空間,其中來自可見類的知識可以轉移到不可見的類。大多數早期文章使用的語義空間基于語義屬性。給定定義的屬性本體,每個類名可以由屬性向量表示,并稱為類原型。

1.1 可見類(seen classes)和不可見類(unseen classes)

——在Zero-shot learning中,特征空間(feature space)中存在一些标記的訓練執行個體。這些訓練執行個體所涵蓋的類稱為可見類–seen classes。在特征空間中,還有一些未标記的測試執行個體,它們屬于另一組類。這些類被稱為不可見類–unseen classes。

——特征空間通常是實數空間,每個執行個體都表示為其中的一個向量。通常假定每個執行個體都屬于一個類。

Zero-shot learning(一):ZSL的基本概念Zero-shot learning(一):ZSL的基本概念一、Zero-shot learning的基本概念二、Zero-shot learning的的方法概述

1.2 嵌入空間(Semantic spaces)

——語義空間包含有關類的語義資訊,是zero-shot learning的重要組成部分。各種語義空間被現有的文章所使用。根據語義空間的構造方法,将其分為(1)工程語義空間(Engineered Semantic Spaces)和(2)學習語義空間(learned semantic spaces)。

Engineered Semantic Spaces

-----在工程語義空間中,語義空間的每個次元都是由人來設計的。有不同種類的工程語義空間,每一種都有一個獨特的資料源和建構空間的獨特方式。接下來,我們介紹了用于zero-shot learning的典型工程語義空間。

屬性空間-Attribute spaces 屬性空間是由一組屬性構成的語義空間。它們是zero-shot learning中應用最廣泛的語義空間之一。在開創性的工作中[1,2],屬性空間已經被采用。在屬性空間中,描述類的各種屬性的術語清單被定義為屬性。每個屬性通常是一個單詞或短語,對應于這些類的一個屬性。例如,在圖像中的動物識别問題中,屬性可以是身體顔色(如“灰色”、“棕色”和“黃色”)或栖息地(如“海岸”、“沙漠”和“森林”)[1]。然後,這些屬性用于形成語義空間,每個次元都是一個屬性。對于每個類,對應原型(prototype)的每個次元的值由該類是否具有對應的屬性決定。

------假設在動物識别問題中,有三個屬性:“有條紋”,“生活在陸地上”和“吃植物的”。對于“虎”類,這三個屬性的相應值構成原型[1,1,0]。 對于“馬”類,相應的值形成原型[0,1,1] [1]。 在上面的例子中,屬性值是二值的(即,0/1)。 是以,結果屬性空間被稱為二值屬性空間。通常,屬性值也可以是實數,表示具有屬性的一個類的程度/置信度。 屬性空間稱為連續屬性空間。 二值和連續屬性空間是最常見的屬性空間。 此外,還存在相對屬性空間[3],其測量在不同類之間具有屬性的相對程度。

詞彙空間–Lexical spaces 詞彙空間是由一組詞彙項構造的各種語義空間。 詞彙空間基于可以提供語義資訊的類和資料集的标簽。 資料集可以是一些結構化的詞彙資料庫,例如WordNet。 采用WordNet作為資訊源,有不同的方法來建構語義空間。 一種方法是利用WordNet中的層次關系,例如使用所有看到和未看到的類,以及它們在WordNet中的前期版本來形成語義空間,每個次元對應于一個類[4,5]。然後,對于類 c i c_i ci​,其原型ti的第j維的值由類 c i c_i ci​和類 c j c_j cj​(第j維的對應類)之間的關系确定。 在某些方法中,如果 c j c_j cj​是 c i c_i ci​的祖先或 c i c_i ci​本身,則值為1; 否則,該值為0 [4]。 在其他方法中,該值由WordNet中 c i c_i ci​和 c j c_j cj​之間的距離确定; 距離測量可以是Jiang-Conrath距離[5],Lin距離[5],或路徑長度相似度[5]。 除了層次關系之外,其他關系(如WordNet中的部分關系)也可用于形成語義空間[6]。 WordNet是一般詞彙資料庫的代表。在一些問題中,存在特定于問題的詞彙資料庫。例如,在細粒度命名實體類型[7]中,有不同實體類型的預定義樹層次結構,它們用于形成語義空間。除了結構化詞彙資料庫,資料集還可以是一些語料庫。例如,在[2]中,每個類都表示為類标簽的共現向量,其中包含來自谷歌萬億單詞庫中最頻繁的5000個單詞。

文本關鍵字空間Text-keyword spaces 文本關鍵字空間是一種語義空間,由從每個類的文本描述中提取的一組關鍵字構成。 在文本關鍵字空間中,文本描述的最常見來源是網站,包括維基百科[5,8]等一般網站和特定于域的網站。 例如,在[9,10]中,由于任務是圖像中的zero-shot flower識别,是以使用植物資料庫和植物百科全書(其特定于植物)來獲得每個花類的文本描述。 除了預定義的網站之外,還可以從搜尋引擎獲得這樣的文本描述。 例如,在[11]中,每個類名用作Google的查詢,以查找描述該類的網頁。 在一些特定問題中,存在獲得文本描述的特定方法。在zero-shot video事件檢測[12]中,事件的文本描述可以從資料集中提供的事件工具包中獲得。 在獲得每個類的文本描述之後,下一步是構造語義空間并從這些描述中生成類原型。 語義空間通常由從這些文本描述中提取的關鍵字構成,每個次元對應于關鍵字。 為了建構類的原型,提出了不同的方法。 對于每個文本描述,一些文章使用二進制出現訓示符(binary occurrence indicator)[8]或Bag of Words(BOW)表示[5]。另一方面,一文章利用了資訊檢索技術(information retrieval techniques)。例如,[9,13,11]使用term frequency-inverse document frequency (TF-IDF)來表示每個類,而[10]對TF-IDF向量采用聚類潛在語義索引算法來獲得降維表示向量。

一些基于特定為題的空間–Some problem-specific spaces 一些工程語義空間專門針對某些問題而設計。 例如,在zero-shot character recognition[14]中,類被限制為字母數字字元。 [14]中的語義空間由字元的“規範”表示組成,即每個字元的7×5像素圖像。 在與圖像分類相關的問題中,使用人眼凝視資料時[15]。 從凝視資料中提取的特征用于形成語義空間。 在計算生物學中的一些零射擊學習問題中,例如在新的生物因子存在下識别分子成分是否有活性[14],生物學代理的描述用于形成語義空間。

工程嵌入空間小結

------工程語義空間的優點是通過語義空間和類原型的建構,靈活地編碼人類領域知識。缺點是嚴重依賴人來執行語義空間和類原型工程。例如,在屬性空間中,屬性設計需要手工完成,這需要領域專家付出大量的努力。

學習嵌入空間—Learned Semantic Spaces

-------在學習語義空間中,空間的次元不是由人設計的。每個類的原型Prototypes都是從一些機器學習模型的輸出中獲得的。在這些原型中,每個次元都沒有明确的語義。相反,語義資訊包含在整個原型中。用于提取原型的模型可以在其他問題中預先訓練,也可以專門針對Zero-shot learning問題進行訓練。接下來,介紹zero-shot learning中典型的學習語義空間。

标簽嵌入空間—Label-embedding spaces 标簽嵌入空間是一類通過嵌入類标簽來獲得類原型的語義空間。鑒于單詞嵌入技術在自然語言進行中的發展和廣泛應用,本小節介紹了這種空間。在單詞嵌入中,單詞或短語作為向量嵌入到實數空間中。這個嵌入空間包含語義資訊。在該空間中,語義相似的詞或短語被嵌入到相鄰的向量中,而語義不同的詞或短語被嵌入到距離較遠的向量中。在zero-shot learning,對于每一個class,它的class标簽都是一個單詞或短語。是以,它可以嵌入到一個詞的嵌入空間中,以得到的對應向量為原型。在現有的文章中,采用了不同的嵌入技術,如Word2Vec[5,16, 17]和GloVe[5,17]。此外,不同的語料庫,從一般的維基百科[135,144]到特定的語料庫,如來自Flickr [19]的文本,已被用于學習嵌入模型。 除了為每個類生成一個原型之外,還有一些工作[20,21]為标簽嵌入空間中的每個類生成多個原型。 在這些工作中,類的原型通常是遵循高斯分布的多個向量。

文本嵌入空間–Text-embedding spaces. 文本嵌入空間是一種語義空間,其中通過嵌入每個類的文本描述來獲得類原型。 與文本關鍵字空間類似,文本嵌入空間中的語義資訊也來自文本描述。 但是,這兩種空間之間存在着重大差異。 具體地,通過提取關鍵字并将它們中的每一個用作構造空間中的次元來構造文本關鍵字空間。 通過一些學習模型建構文本嵌入空間。 每個類的文本描述用作學習模型的輸入,輸出向量被視為該類的原型。 例如,在圖像對象識别任務[22]中,為每個類收集若幹文本描述。 這些文本描述用作文本編碼器模型的輸入,輸出向量被視為類原型。

圖像表示空間–Image-representation spaces 圖像表示空間是各種語義空間,其中類原型是從屬于每個類的圖像中獲得的。 例如,在視訊動作識别任務[23]中,通過搜尋引擎獲得不同動作類的圖像。 然後,對于每個動作類,屬于該類的圖像被用作某些預訓練模型的輸入(例如,在ImageNet資料集上預訓練的GoogLeNet)。 來自模型的輸出向量被組合以形成表示向量,并且其被用作該動作類的原型。

學習嵌入空間的小節

-------學習語義空間的優勢在于生成過程相對較少的人工介入,生成的語義空間包含的資訊容易被人類忽略。缺點是類的原型是從一些機器學習模型中獲得的,每個次元的語義都是隐式的。這樣,對于人類來說,将類的領域知識合并到原型中是不友善的。

本節參考文獻(參考文獻後面還有内容)

[1] Christoph H. Lampert, Hannes Nickisch, and Stefan Harmeling. 2009. Learning to detect unseen object classes by between-class attribute transfer. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR’09). 951–958

[2] Mark Palatucci, Dean Pomerleau, Geoffrey Hinton, and Tom M. Mitchell. 2009. Zero-shot learning with semantic output codes. In Advances in Neural Information Processing Systems 22: 23rd Annual Conference on Neural Information Processing Systems 2009 (NIPS’09). 1410–1418.

[3] Devi Parikh and Kristen Grauman. 2011. Relative attributes. In Proceedings of the IEEE International Conference on Computer Vision (ICCV’11). 503–510.

[4] Zeynep Akata, Florent Perronnin, Zaid Harchaoui, and Cordelia Schmid. 2016. Label-embedding for image classification.IEEE Transactions on Pattern Analysis and Machine Intelligence 38, 7 (2016), 1425–1438.

[5] Zeynep Akata, Scott Reed, DanielWalter,Honglak Lee, and Bernt Schiele. 2015. Evaluation of output embeddings for fine-grained image classification. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition(CVPR’15). 2927–2936.

[6] Marcus Rohrbach, Michael Stark, Gyorgy Szarvas, Iryna Gurevych, and Bernt Schiele. 2010. What helps where – and why? Semantic relatedness for knowledge transfer. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR’10). 910–917.

[7] Yukun Ma, Erik Cambria, and Sa Gao. 2016. Label embedding for zero-shot fine-grained named entity typing. In 26th International Conference on Computational Linguistics (COLING’16). 171–180.

[8] Ruizhi Qiao, Lingqiao Liu, Chunhua Shen, and Anton van den Hengel. 2016. Less is more: Zero-shot learning from online textual documents with noise suppression. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR’16). 2249–2257.

[9] Jimmy Lei Ba, Kevin Swersky, Sanja Fidler, and Ruslan Salakhutdinov. 2015. Predicting deep zero-shot convolutional neural networks using textual descriptions. In Proceedings of the IEEE International Conference on Computer Vision(ICCV’15). 4247–4255.

[10] Mohamed Elhoseiny, Babak Saleh, and Ahmed Elgammal. 2013. Write a classifier: Zero-shot learning using purely textual descriptions. In Proceedings of the IEEE International Conference on Computer Vision (ICCV’13). 2584–2591.

[11] Vincent W. Zheng, Derek Hao Hu, and Qiang Yang. 2009. Cross-domain activity recognition. In Proceedings of the 11th International Conference on Ubiquitous Computing (UbiComp’09). 61–70.

[12] Jeffrey Dalton, James Allan, and Pranav Mirajkar. 2013. Zero-shot video retrieval using content and concepts. In Proceedings of the 22nd ACM International Conference on Information and Knowledge Management (CIKM’13). 1857–1860.

[13] Mohamed Elhoseiny, Yizhe Zhu, Han Zhang, and Ahmed Elgammal. 2017. Link the head to the “Beak”: Zero shot learning from noisy text description at part precision. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR’17). 6288–6297.

[14] Hugo Larochelle, Dumitru Erhan, and Yoshua Bengio. 2008. Zero-data learning of new tasks. In Proceedings of the Twenty-Third AAAI Conference on Artificial Intelligence (AAAI’08). 646–651.

[15] Nour Karessli, Zeynep Akata, Bernt Schiele, and Andreas Bulling. 2017. Gaze embeddings for zero-shot image classification. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR’17). 6412–6421.

[16] Catherine Wah, Steve Branson, Peter Welinder, Pietro Perona, and Serge Belongie. 2011. The Caltech-UCSD Birds-200-2011 Dataset. Technical Report CNS-TR-2011-001. California Institute of Technology.

[17] Yongqin Xian, Zeynep Akata, Gaurav Sharma, Quynh Nguyen, Matthias Hein, and Bernt Schiele. 2016. Latent embeddings for zero-shot classification. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR’16). 69–77.

[18] Richard Socher, Milind Ganjoo, Christopher D. Manning, and Andrew Y. Ng. 2013. Zero-shot learning through cross-modal transfer. In Advances in Neural Information Processing Systems 26: 27th Annual Conference on Neural Information Processing Systems (NIPS’13). 935–943.

[19] Spencer Cappallo, Thomas Mensink, and Cees G. M. Snoek. 2015. Image2Emoji: Zero-shot emoji prediction for visual media. In Proceedings of the 23rd ACM International Conference on Multimedia (MM’15). 1311–1314.

[20] Tanmoy Mukherjee and Timothy Hospedales. 2016. Gaussian visual-linguistic embedding for zero-shot recognition. In Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing (EMNLP’16). 912–918.

[21] Zhou Ren, Hailin Jin, Zhe Lin, Chen Fang, and Alan Yuille. 2016. Joint image-text representation by Gaussian visual semantic embedding. In Proceedings of the 2016 ACM Conference on Multimedia Conference (MM’16). 207–211.

[22] Scott Reed, Zeynep Akata, Honglak Lee, and Bernt Schiele. 2016. Learning deep representations of fine-grained visual descriptions. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR’16). 49–58.

[23] Qian Wang and Ke Chen. 2017. Alternative semantic representations for zero-shot human action recognition. In European Conference on Machine Learning and Principles and Practice of Knowledge Discovery in Databases (ECMLPKDD’17). 87–102.

二、Zero-shot learning的的方法概述

--------我們将現有的Zero-shot learning方法分為兩類:基于分類器的方法和基于執行個體的方法。 對于基于分類器的方法,重點是如何直接學習看不見的類的分類器。 對于基于執行個體的方法,重點是如何獲得屬于看不見的類的标記執行個體,并将它們用于分類器學習。 接下來,我們介紹此方法層次結構中的每個類别。 在介紹這些方法時,我們主要關注Zero-shot learning的最标準資料設定。 也就是說,對于Zero-shot learning任務,考慮一個語義空間并用該空間中的一個原型表示每個類。

2.1 基于分類器的方法—Classifier-Based Methods

--------根據構造分類器的方法,将基于分類器的方法進一步劃分為三類:(1)對應方法–correspondence methods、(2)關系方法–relationship methods和(3)組合方法–combination methods。現有的基于分類器的方法通常采用one-versus-rest的解決方案來學習多類zero-shot classifier f u ( ⋅ ) f^u(\cdot) fu(⋅)。也就是說,對于每個不可見的類 c i u c_i^u ciu​,它們學習一個二進制的one-versus- rest(一對多)分類器。我們将 f u ( ⋅ ) : R D → f^u(\cdot):R^D\rightarrow fu(⋅):RD→ {0,1}表示為類 c i u ∈ u c_i^u\in u ciu​∈u的二進制一對二分類器。是以,看不見的類的最終zero shot分類器 f u ( ⋅ ) f^u(\cdot) fu(⋅)由 N u N_u Nu​二進制組成 一對二分類{ f u ( ⋅ ) ∣ i = 1 , . . . , N u f^u(\cdot)\mid i=1,...,N_u fu(⋅)∣i=1,...,Nu​}。

涉及該方法的部分論文(這些論文不需要全看,看看摘要,找符合自己研究方向的)

A simple exponential family framework for zero-shot learning

DeViSE: A deep visual-semantic embedding model

Label-embedding for attribute-based classification

Evaluation of output embeddings for fine-grained image classification

An embarrassingly simple approach to zero-shot learning

Deep semantic structural constraints for zero-shot learning

Latent embeddings for zero-shot classification

Zero-shot human activity recognition via nonlinear compatibility based method

Less is more: Zero-shot learning from online textual documents with noise suppression

Less is more: Zero-shot learning from online textual documents with noise suppression

2.2 基于執行個體的方法—Instance-Based Methods

--------基于執行個體的方法旨在首先獲得看不見的類的标記執行個體,然後使用這些執行個體來學習zero shot分類器 f u ( ⋅ ) f^u(\cdot) fu(⋅)。 根據這些執行個體的來源,現有的基于執行個體的方法可以分為三個子類别:(1)投影方法—projection methods,(2)執行個體借用方法instance-borrowing methods,以及(3)合成方法–synthesizing methods。

--------這裡需要介紹一下基于投影方法的算法。它的觀點是通過将特征空間執行個體和語義空間原型投射到公共空間中,為不可見的類擷取标記的執行個體。

--------在特征空間中,有标記的訓練執行個體屬于所看到的類。同時,在語義空間中,既有可見類的原型,也有不可見類的原型。特征空間和語義空間都是實數空間,其中執行個體和原型都是向量。在這個架構中,原型也可以看作是帶标簽的執行個體。是以,我們在兩個空間(特征空間X和語義空間T)中标記了執行個體。在投影方法中,這兩個空間中的執行個體被投影到一個公共空間中。通過這種方式,我們可以獲得屬于不可見類的标記執行個體。在本文中,我們将這個公共空間稱為投影空間,記作P。

--------投影方法的一般過程如下。 首先,特征空間X中的執行個體 x i x_i xi​和語義空間T中的原型 t j t_j tj​分别以投影函數 θ ( ⋅ ) θ(·) θ(⋅)和 ξ ( ⋅ ) ξ(·) ξ(⋅)投影到投影空間P中:

X → P : z i = θ ( x i ) X \to P : z_i = θ(x_i) X→P:zi​=θ(xi​)

T → P : b i = ξ ( t j ) T \to P : b_i = ξ(t_j) T→P:bi​=ξ(tj​)

--------然後對投影空間進行分類。

--------在投影方法中,對于每個不可見的類 c i u c_i^u ciu​,在特征空間中沒有标記執行個體;是以,它在語義空間中的原型 t i u t_i^u tiu​是屬于該類的惟一标記執行個體。

--------也就是說,對于每個看不見的類,隻有一個标記的執行個體可用。 很難學習像SVM這樣的分類器或邏輯回歸分類器,因為看不見的類的标記執行個體很少。 結果,在現有的投影方法中,分類通常通過最近鄰分類(1NN)或其一些變體來執行。 1NN方法可以在隻有一個标記執行個體可用于分類所需的類的情況下工作,這适用于這種情況。 1NN方法是一種懶惰的學習方法,不需要明确的學習過程。 是以,當使用它進行分類時,不需要為看不見的類學習分類器的明确過程。 現有論文中的投影方法可以在不同的學習環境下進行。

基于執行個體借用的方法—Instance-Borrowing Methods

--------它的觀點是通過借鑒訓練執行個體來為不可見的類擷取标記的執行個體。

--------執行個體借用方法基于類之間的相似性。 例如,在圖像中的對象識别中,假設我們想要學習“卡車”類的分類器,但是沒有相應的标記執行個體。 但是,我們有一些屬于類“car”和“bus”的标記執行個體。因為它們是類似于“truck”的對象,當學習類“truck”的分類器時,我們可以使用屬于這兩個類的執行個體作為正執行個體。 這種方法遵循人類認識世界的方式[58]。 我們可能從未見過屬于某些類的執行個體,但已經看到屬于某些類似類的執行個體。 通過了解這些類似的類,我們能夠識别屬于看不見的類的執行個體。

------執行個體借用方法的一般過程如下。 首先,對于每個看不見的類 c i u c_i^u ciu​,來自訓練執行個體的一些執行個體被借用并配置設定該類的标簽。 然後,利用所有看不見的類的借用執行個體,學習看不見的類的分類器 f u ( ⋅ ) f^u(·) fu(⋅),并實作測試執行個體 X t e X^te Xte的分類。

--------在執行個體借用方法中,在借用執行個體之前,應該确定看不見的類 U U U. 隻有這樣,我們才能知道借用執行個體的類。 是以,模型的優化是針對預定的看不見的類,并且自然看不見的類原型 T u T^u Tu參與優化過程。

涉及該方法的部分論文

Zero-shot learning via semantic similarity embedding

三、總結(從網上打磨過來)的一些關于ZSL的問題

重要參考:https://zhuanlan.zhihu.com/p/34656727

3.1 領域漂移問題(domain shift problem)

--------該問題的正式定義首先由[2]提出。簡單來說,就是同一種屬性,在不同的類别中,視覺特征的表現可能很大。如圖所示,斑馬和豬都有尾巴,是以在它的類别語義表示中,“有尾巴”這一項都是非0值,但是兩者尾巴的視覺特征卻相差很遠。如果斑馬是訓練集,而豬是測試集,那麼利用斑馬訓練出來的模型,則很難正确地對豬進行分類。

Zero-shot learning(一):ZSL的基本概念Zero-shot learning(一):ZSL的基本概念一、Zero-shot learning的基本概念二、Zero-shot learning的的方法概述

------由于樣本的特征次元往往比語義的次元大,是以建立從 X 到 S 的映射往往會丢失資訊,為了保留更多的資訊,保持更多的豐富性,最流行的做法是将映射到語義空間中的樣本,再重建回去,這樣學習到的映射就能夠得到保留更多的資訊。是以,在原來簡單嶺回歸[1]的基礎上,可以将目标函數改為:[7]

m i n ∥ X t r − W T A t r ∥ 2 + λ ∥ W X t r − A t r ∥ 2 min\left \| X_{tr}-W^{T}A_{tr} \right \|^{2}+\lambda \left \| WX_{tr}-A_{tr} \right \|^{2} min∥∥​Xtr​−WTAtr​∥∥​2+λ∥WXtr​−Atr​∥2

從目标函數可以看出,這其實完成的是一個簡易的自編碼器過程,我們簡稱這個算法為SAE

3.2 樞紐點問題(Hubness problem)

--------這其實是高維空間中固有的問題:在高維空間中,某些點會成為大多數點的最近鄰點。這聽上去有些反直覺,細節方面可以參考[3]。由于ZSL在計算最終的正确率時,使用的是K-NN,是以會受到hubness problem的影響,并且[4]中,證明了基于嶺回歸的方法會加重hubness problem問題。

目前對于樞紐點問題的解決主要有兩種方法:

a. 如果模型建立的方式為嶺回歸,那麼可以建立從語義空間到特征空間的映射,進而不加深hubness problem對結果的影響[4],也就是說将目标函數(1)改為:

m i n ∥ X t r − A t r W ∥ 2 + Ω ( W ) min\left \| X_{tr}-A_{tr}W \right \|^{2}+\Omega\left ( W \right ) min∥Xtr​−Atr​W∥2+Ω(W)

b.可以使用生成模型,比如自編碼器、GAN等,生成測試集的樣本,這樣就變成了一個傳統的監督分類問題,不存在K-NN的操作,是以不存在hubness problem的影響。

3.2 語義間隔(semantic gap)

--------樣本的特征往往是視覺特征,比如用深度網絡提取到的特征,而語義表示卻是非視覺的,這直接反應到資料上其實就是:樣本在特征空間中所構成的流型與語義空間中類别構成的流型是不一緻的。(如圖4所示)

Zero-shot learning(一):ZSL的基本概念Zero-shot learning(一):ZSL的基本概念一、Zero-shot learning的基本概念二、Zero-shot learning的的方法概述

------語義間隔問題的本質是二者的流形結構不一緻,是以,解決此問題的着手點就在于将兩者的流形調整到一緻,再學習兩者之間的映射[8]。最簡單的方法自然是将類别的語義表示調整到樣本的流型上,即用類别語義表示的K近鄰樣本點,重新表示類别語義即可。

相關論文

[2]Transductive Multi-View Zero-Shot Learning.

[3]Hubness and Pollution: Delving into Class-Space Mapping for Zero-Shot Learning.

[4]Ridge Regression, Hubness, and Zero-Shot Learning.

[5]Zero-Shot Visual Recognition using Semantics-Preserving Adversarial Embedding Network.

[6]Zero-Shot Learning via Class-Conditioned Deep Generative Models.

[7]Semantic Autoencoder for Zero-Shot Learning.

[8]Zero-Shot Recognition using Dual Visual-Semantic Mapping Paths.

3.3 關于ZSL的研究問題

-----------------我感覺上面說的這些general的問題大家都不需要深入研究了,沒什麼特别大意義,特别是對于小的深度學習團隊,既沒有算力支援,也沒有算法推導支援(需要很強的數學功底),又沒有工程支援(好多人代碼能力不行,配環境好多人都頭疼,更别說寫代碼了)。

----------------------------個人認為,應該從實際的問題出發,分析資料,在一個小點開枝散葉,基本就夠博士四五年的研究了。比如現在:…下一篇文章見刊的時候我會分享給大家的。

繼續閱讀