天天看點

論文解讀:NMF-KNN : Image Annotation using Weighted Multi-view Non-negative Matrix Factorization

摘要

現實中一個資料庫中的圖檔是不斷動态變化的,是以現有的圖像标注方法有兩個主要的缺點:一是加入新标簽和新圖像時,模型需要重新訓練;二是需要對圖像的多個特征進行專門的特征融合。本文提出一種權重的多視角非負矩陣分解方法來解決這兩個問題。核心思想是利用提出的NMF-KNN算法在近鄰圖像集的特征和标簽上學習基于查詢的生成模型。NMF-KNN算法在不同特征的系數矩陣上加上一緻性限制,這使得所有特征的系數矩陣保持一緻,這自然而然地解決了特征融合的問題。而算法中引進的權重矩陣則消除了資料失衡的問題。最後,由于我們的算法是基于查詢的,是以資料集中圖像和标簽的增加對我們的算法沒有任何影響。實驗表明我們的算法在兩個資料集上均取得了有競争力的效果。

1 簡介

圖像标注基于圖像的視覺内容給圖像附上文本标簽。圖像往往由多種不同的特征表達,如顔色等底層特征,物體等中層特征,或者類别等高層特征。但不同的特征表達同一幅圖像,捕捉着相同的潛在結構。這使得轉變每一圖像的不同特征得到所有視角一緻的新的表達成為可能。

最近鄰圖像标注算法基于查詢進行圖像标注,在圖像資料庫一直動态變化的情況下仍适用。受此啟發,我們的方法也是一種最近鄰圖像标注算法。我們提出的方法的關鍵在于:把标簽特征作為圖像的一個新特征,加入到視角特征中;找到一種聯合分解方法将所有視角分解為基矩陣和系數矩陣,且所有視角的系數矩陣具有一緻性。這也迫使每個視角去找到同一潛在概念。分解完成後,目标圖像的标簽由其近鄰圖像的标簽基矩陣和目标圖像的視角特征的系數矩陣重構。

是以,給定一張目标圖像,我們(1)首先提取其視覺特征并找到它的最近鄰圖像集合,(2)在所有視角上進行非負矩陣分解(包括視覺特征和标簽特征)。由測試圖像的視角特征和每個視角的基矩陣得到的每個視角的視覺特征系數矩陣平均後,就得到一個唯一的系數向量。這個系數向量和标簽基矩陣相乘,就得到了标簽視角的系數矩陣,該标簽系數矩陣給出了每一個标簽的分值。

非負矩陣分解的目的是将一個矩陣分解為非負的基矩陣和系數矩陣。非負系數可以認為是對發現的基的軟配置設定。在圖像标注任務中,圖像資料有多個視角的特征,需要對所有視角進行非負矩陣分解,而多個視角存在相同的潛在結構。我們需要在所有視角上加上限制,使得出現一個所有視角一緻的潛在結構。這樣,每個視角的對應位置的基代表相同的主題。在我們的工作中,我們将标簽作為圖像的一個視角,同樣學習到标簽的基矩陣,該标簽基矩陣對應的基同樣代表相同的潛在主題。注意:這些主題概念可能不含任何語義,隻是抽象概念上的一緻性。

圖像标注中一個棘手的問題就是弱标簽問題——部分标簽出現頻率特别低,導緻這些标簽的标注精度較低。為了解決這個問題,我們引進兩個權重矩陣到MultiNMF架構中,增加稀缺标簽和擁有稀缺标簽的圖像的重要性。通過增加适當的權重,NMF強迫學習到可以很好捕獲稀缺标簽的一緻性潛在主題概念。

總的來說,我們在圖像标注任務中使用MultiNMF為一個特定圖像學習一個特定生成模型。矩陣分解在保證所有特征視角的系數矩陣一緻性的情況下進行,這種做法優雅地解決了特征融合的問題。另外,我們引入權重矩陣增加稀缺标簽的召回率,而不需要特定标簽判别模型。該算法對現實世界中不斷變化的資料庫很有實際意義。

2 相關工作

對圖像标注算法和NMF算法的一個介紹。将圖像标注算法分為模型驅動和資料驅動兩部分。

3 NMF-KNN算法

繼續閱讀