雷鋒網 AI 科技評論按:CapsNet 作者 Sara Sabour 聯合 Geoffrey Hinton 及牛津大學研究者在最新的論文《Stacked Capsule Autoencoders》中提出膠囊網絡的改進版本,該膠囊網絡可以無監督地學習圖像中的特征,并取得了最先進的結果。
一個物體可以看作是一組互相關聯的幾何組成部分,是以,一個明确利用這些幾何關系來識别物體的系統,在應對視點的變化上理應具有魯棒性,因為内在幾何關系的視點是不會有變化的。
在這篇論文中,他們提出一個無監督版本的膠囊網絡,通過可檢視所有部件的神經編碼器,進而推斷物體膠囊的位置與姿勢。該編碼器通過解碼器進行反向傳播訓練,通過混合式姿勢預測方案來預測已發現部件的姿勢。同樣是使用神經編碼器,通過推斷部件及其仿射變換,可以直接從圖像中發現具體的部件。換句話說,每個相應的解碼器圖像像素模組化,都是仿射變換部分做出的混合預測結果。他們通過未标記的資料習得物體及其部分膠囊,然後再對物體膠囊的存在向量進行聚類。
最後,該成果在 SVHN 上獲得了最先進的無監督分類結果 (55%),同時在 MNIST 上獲得了接近最先進的分類結果。(98.5%)。
該膠囊網絡全名 Stacked Capsule Autoencoder (SCAE),具體可分為兩個階段:Part Capsule Autoencoder(PCAE)及 Object Capsule Autoencoder (OCAE)。
PCAE 負責将圖像分割成元件,借此推斷其姿勢,并将圖像像素重構為轉換後的部件模闆像素的混合産物;OCAE 則試圖将發現的部件及其姿勢組成更小的一組對象,再結合針對每個部件的混合預測方案來解釋部件的姿勢。
每個物體膠囊通過将姿勢-對象-視圖-關系(OV)乘以相關的物體-部件-關系 (OP) 來為這些混合物提供元件。SCAE 在未經标記的資料上進行訓練時借此捕獲整個物體及其部件之間的空間關系。
Stacked Capsule Autoencoder (SCAE)
總的來說,該工作的主要貢獻在于提出了一種全新的表示學習方法,其中高度結構化的解碼器可以用來訓練編碼器網絡,進而将圖像分割成相應的部件及其姿勢,而另一個編碼器網絡則可以将這些部件組成連貫的整體。盡管訓練目标不涉及分類/聚類,但 SCAE 依然是唯一一個在無監督對象分類任務中不依賴于互資訊(MI)中也能獲得有競争力結果的方法。
via https://arxiv.org/pdf/1906.06818.pdf
雷鋒網 AI 科技評論 雷鋒網(公衆号:雷鋒網)