阿裡妹導讀:在現實世界中,資訊通常以不同的模态同時出現。這裡提到的模态主要指資訊的來源或者形式。例如在淘寶場景中,每個商品通常包含标題、商品短視訊、主圖、附圖、各種商品屬性(類目,價格,銷量,評價資訊等)、詳情描述等,這裡的每一個次元的資訊就代表了一個模态。如何将所有模态的資訊進行融合,進而獲得一個綜合的特征表示,這就是多模态表征要解決的問題。今天,我們就來探索多模态表征感覺網絡,了解這項拿過冠軍的技術。
作者 | 越豐、箫瘋、裕宏、華棠
摘要
近些年,深度學習飛速發展,在很多領域(圖像、語音、自然語言處理、推薦搜素等)展現出了巨大的優勢。多模态表征研究也進行入深度學習時代,各種模态融合政策層出不窮。
在這裡,我們主要對圖像和文本這兩個最常見的模型融合進行探索,并在2個多模态融合場景中取得了目前最好的效果。
- 在文本編輯圖像場景中,我們提出了雙線性殘差層 ( Bilinear Residual Layer ),對圖像和文本兩個模态的特征進行雙線性表示 ( Bilinear Representation),用來自動學習圖像特征和文本特征間更優的融合方式。
- 在時尚圖像生成場景中(給定文本直接生成對應的圖像),我們采用了跨模态注意力機制(Cross Attention)對生成的圖像和文本特征進行融合,再生成高清晰度且符合文本描述的時尚圖像。最後,在客觀評分和主觀評分上取得了最好的成績。
文本編輯圖像
圖像編輯是指對模拟圖像内容的改動或者修飾,使之滿足我們的需要,常見的圖像處理軟體有Photoshop、ImageReady等。随着人們對于圖像編輯需求的日益提升,越來越多的圖像要經過類似的後處理。但是圖像處理軟體使用複雜且需要經過專業的教育訓練,這導緻圖像編輯流程消耗了大量人力以及時間成本,為解決該問題,一種基于文本的圖像編輯手段被提出。基于文本的圖像編輯方法通過一段文本描述,自動地編輯源圖像使其符合給出的文本描述,進而簡化圖像編輯流程。例如圖1所示,通過基于文本的圖像編輯技術可以通過文字指令改變模特衣服的顔色,紋理甚至款式。
圖1 基于文本的圖像編輯技術示例
然而,基于文本的圖像編輯技術目前仍然難以實作,原因是文本和圖像是跨模态的,要實作一個智能的圖像編輯系統則需要同時提取文本和源圖像中的關鍵語義。這使得我們的模型需要很強的表示學習能力。
現有方法
目前已有一些針對基于文本的圖像編輯所提出的方法。他們都采用了強大的圖像生成模型GAN(Generative adversarial network)作為基本架構。Hao[1]訓練了一個conditional GAN,它将提取出來的text embeddings作為conditional vector和圖像特征連接配接在一起,作為兩個模态資訊的混合表示,然後通過反卷積操作生成目标圖像 (如圖2)。
圖2 使用傳統conditional GAN實作的基于文本的圖像編輯方案
Mehmet[2]對以上方法做了改進,他認為特征連接配接并不是一種好的模态資訊融合方式,并用一種可學習參數的特征線性調制方法
3去學習圖像和文本的聯合特征。FiLM減少了模型的參數,同時使得聯合特征是可學習的,提高了模型的表示學習能力 (如圖3)。
圖3 使用FiLM+conditional GAN實作的基于文本的圖像編輯方案
我們的工作
我們的工作從理論角度分析了連接配接操作和特征線性調制操作間特征表示能力的優劣,并将這兩種方法推廣到更一般的形式:雙線性 (Bilinear representation)。據此,我們提出表示學習能力更加優越的雙線性殘差層 (Bilinear Residual Layer),用來自動學習圖像特征和文本特征間更優的融合方式。
Conditioning的原始形式
首先,本文将介紹conditional GAN中的連接配接操作和它的形式化表達,假設
和
分别為前一層的輸出和conditional vector,其中D和
為特征次元,連接配接的表示為
,後一層的權重
,其中
分别為
對應的權重,O為輸出次元,我們可得到如下變換:
其中
為輸出張量。
FiLM形式
FiLM源自于将特征乘以0-1之間的向量來模拟注意力機制的想法,FiLM進行特征次元上的仿射變換,即:
其中,
是縮放系數
的權重。顯而易見,當
為全1矩陣時,FiLM退化成Conditioning的原始形式,由此,可以得出FiLM是連接配接操作的更一般情況。
Bilinear形式
以上的方法都隻是線性變換,我們的工作在此基礎上,提出了雙線性的形式,即輸出張量第i維的值由權重矩陣
控制:
。
經過證明,Bilinear形式可以看做FiLM的進一步推廣,它具有更加強大的表示學習能力。證明如下:
為了證明FiLM可以由Bilinear的形式表示,首先要将FiLM變換寫成單個特征值的情況,假設
分别對應
中第個i輸出值對應的權值,FiLM可以寫成:
以上形式等同于:
,而
可以通過随機選擇
中的一個非零元素
來構造,進而
構造如下:
中除了第k行其他位置的元素全為0。顯而易見
的秩均為1,由此可得出
,也就是說,當Bilinear變換矩陣
是稀疏的并且有不大于2的秩時,Bilinear形式等同于FiLM。這間接說明Bilinear形式是FiLM的推廣。
Bilinear的Low-rank簡化形式
雖然Bilinear有更強的表示能力,但它的參數實在是太多了,為了降低模型複雜度,實際中常常采用一種低秩的方法[4]簡化計算,通過将
分解為兩個低秩陣
,其中d為指定的秩。由此,Bilinear的Low-rank簡化形式可寫為:
然後通過矩陣
将輸出張量投影到輸出次元上:
我們将
、
和P作為網絡内部可學習的層,并結合短路結構,提出雙線性殘差層 (Bilinear Residual Layer, BRL),具體可見圖4。
算法的整體架構如圖4,網絡由生成器和判别器構成,生成器有三個子產品:編碼子產品,融合子產品,解碼子產品。編碼子產品由預訓練好的文本編碼器
和圖像特征提取器
構成,圖像特征提取器直接使用VGG16模型conv1-4層權值。融合子產品由4個雙線性殘差層 (Bilinear Residual Layer, BRL)構成,解碼子產品則是将處理好的特征上采樣成圖像。
圖4 方法的整體架構
訓練時,模型得到圖像-文本對的輸入
,t為比對圖像x的對應描述,假設用于編輯圖像的文本為
,生成器接收
和x作為輸入得到:
其中,F表示融合子產品。對抗訓練過程中,判别器被訓練以區分語義不相關的圖像文本對,是以我們需要從文本庫中選擇不比對的文本
作為負樣本,判别器的損失函數如下:
其中前兩項為了區分正負樣本對,第三項為了盡可能識别生成圖像和文本
的不比對。同時生成器G被訓練以生成和文本
比對的圖像:
整體目标函數即由
所構成。
實驗結果
我們的方法在Caltech-200 bird[5]、Oxford-102 flower[6]以及Fashion Synthesis[7]三個資料集上進行了驗證。定性結果如圖5所示,第一列為原圖,第二清單示Conditional GAN原始形式的方法,第三清單示基于FiLM的方法,最後一列是論文提出的方法。很明顯前兩者對于複雜圖像的編輯會失敗,而論文提出的方法得到的圖像品質都較高。
圖5 生成樣本定性結果
除此之外,實驗還進行了定量分析,盡管對于圖像生成任務還很難定量評估,但是本工作采用了近期提出的近似評價名額Inception Score (IS)[8]作為度量标準。由表6可見,我們的方法獲得了更高的IS得分,同時在矩陣秩設定為256時,IS得分最高。
表6 生成樣本定量結果
時尚圖像生成
在調研多模态融合技術的時候,有一個難點就是文本的描述其實對應到圖像上局部區域的特性。例如圖7,Long sleeve對應了圖像中衣服袖子的區域,并且是長袖。另外,整個文本描述的特性對應的是整個圖像的區域。基于這個考慮,我們認為圖像和文本需要全局和局部特征描述,圖像全局特征描述對應到整個圖像的特征,局部特征對應圖像每個區域的特征。文本的全局特征對應整個句子的特征,文本的局部特征對應每個單詞的特征。然後文本和圖像的全局和局部區域進行特征融合。
針對這種融合政策,我們在時尚圖像生成任務上進行了實驗。時尚圖像生成(FashionGEN)是第一屆Workshop On Computer VisionFor Fashion, Art And Design中一個比賽,這個比賽的任務是通過文本的描述生成高清晰度且符合文本描述的商品圖像。我們在這個比賽中客觀評分和人工評分上均獲得的第一,并取得了這個比賽的冠軍。
我們的方法
我們方法基于細粒度的跨模态注意力,主要思路是将不同模态的資料(文本、圖像)映射到同一特征空間中計算相似度,進而學習文本中每個單詞語義和圖像局部區域特征的對應關系,輔助生成符合文本描述的細粒度時尚圖像,如圖7所示。
圖7 不同單詞描述圖像不同區域示例
傳統的基于文本的圖像生成方法通常隻學習句子和圖像整體的語義關聯,缺乏對服裝細節紋理或設計的模組化。為了改進這一問題,我們引入了跨模态注意力機制。如圖8左邊區域,已知圖像的局部特征,可以計算句子中不同單詞對區域特征的重要性,而句子語義可以視為基于重要性權重的動态表示。跨模态注意力可以将圖檔與文字的語義關聯在更加精細的局部特征層級上模組化,有益于細粒度時尚圖像的生成。
圖8 跨模态注意力機制,左圖表示通過圖像局部特征計算不同單詞的重要性,右圖表示通過詞向量計算不同圖像局部特征的重要性
我們用bi-LSTM作為文本編碼器,GAN作為對抗生成模型,并将生成過程分為由粗到精,逐漸增加分辨率的兩個階段:
- 第一階段利用句子的整體語義和随機輸入學習圖像在大尺度上的整體結構。
- 第二階段利用單詞層級的語義在第一階段低分辨率輸出上做局部細節的修正和渲染,得到細粒度的高分辨率時尚圖像輸出。
圖9 整體架構概覽,頂部分支利用文本整體語義學習低分辨率的圖像大緻結構,底部分支在上一階段的輸出上做圖像細節的修正,生成更加細粒度的時尚設計或紋理。
對抗生成網絡
傳統的生成式對抗網絡由判别器和生成器兩部分組成,判别器的目标是判别生成圖像是否在真實資料集的分布中,而生成器的目标是盡可能的騙過判别器生成逼近真實資料集的圖像,通過兩者的疊代更新,最終達到理論上的納什均衡點。這個過程被稱為對抗訓練,對抗訓練的提出為建立圖像等複雜資料分布建立了可能性。
對于文本生成圖像的任務,需要更改生成器的輸入以及目标函數,我們将兩個階段的生成器分别設為
,整個流程可被形式化為:
是句子向量,D為雙向LSTM兩個方向上輸出的次元和,
是詞向量矩陣,T指代單詞的個數,
表示第一階段激活值輸出,
表示生成的圖像。我們需要優化的目标函數定義為:
是對抗損失,
是生成圖像和對應描述的相似性損失,
由兩部分組成:
其中第一項非條件損失表示圖像本身的真僞,第二項條件損失表示圖像和句子語義是否比對。對
也同理。
判别器
,同時也被訓練以最小化交叉熵損失:
該項對
基于跨模态注意力的相似性
本節将詳細介紹在我們的方法中用到的跨模态注意力機制,給出圖像-文本對
,我們取Inceptionv3中mixed-6e層的輸出768×17×17作為圖像區域特征,我們将空間次元展平得到768×289,averagepooling層的輸出2048作為圖像全局特征,對這些特征使用投影矩陣
變換到
。由此,可以得到相似度矩陣:
其中元素
代表了第i個單詞和第j個子區域的點積相似性。
圖像-文本相似性
對于第i個單詞,我們最終可以建立不同區域特征的權重和(越相似賦予越大的權重):
是對應于第i個單詞,圖像特征的動态表述。
對第i個單詞,求得
的餘弦相似度:
綜合可得圖檔對
的相似度為:
其中超參數
表示最相關的單詞-圖像區域對對最終相似度得分的影響程度。在一個batch的圖像-文本對中,我們最大化正确對的相似度,最小化錯誤對的相似度:
M為batchsize的大小。
文本-圖像相似性
同理的,文本-圖像的相似性可以形式化為:
全局相似性
以上我們計算了局部特征上的相似性得分,在全局區域,我們可以利用
的餘弦距離作為全局相似度:
綜上,有:
通過優化以上損失函數,我們最終得到的生成的服裝圖檔的效果圖如下所示:
附上算法效果圖:
總結
我們主要對圖像和文本這兩個最常見的模型融合進行探索,在文本編輯圖像任務上,我們提出基于雙線性殘差層 (Bilinear Residual Layer)的圖文融合政策,并取得了最好的效果,相關工作已經發表在ICASSP 2019上,點選文末“閱讀原文”即可檢視論文。在時尚圖像生成任務上,我們使用了細粒度的跨模态融合政策,并在FashionGen競賽中取得第一。
關于我們
阿裡安全圖靈實驗室專注于AI在安全和平台治理領域的應用,涵蓋風控、知識産權、智能雲服務和新零售等商業場景,以及醫療、教育、出行等數億使用者相關的生活場景,已申請專利上百項。2018年12月,阿裡安全圖靈實驗室正式對外推出“安全AI”,并總結其在知識産權保護、新零售、内容安全等領域進行深度應用的成果:2018年全年,内容安全AI調用量達到1.5萬億次;知識産權AI正在為上千個原創商家的3000多個原創商品提供電子“出生證”——線上與全平台商品圖檔對比,智能化完成原創性校驗,作為原創商家電子備案及後續維權的重要依據;新零售場景的防盜損對小偷等識别精準度達到100%。
原文釋出時間為:2019-04-10
本文作者:越豐
本文來自雲栖社群合作夥伴“
阿裡技術”,了解相關資訊可以關注“
”。