智造觀點
在IBM最新的論文中,研究人員提出了一種能自主制作多樣化、創造性和符合人類語境的圖檔文字說明的模型。實驗證明,圖檔的文字說明取得了“良好”的性能,未來可以為強大的新計算機視覺系統奠定了基礎。
無論是報社、雜志社還是新媒體,編輯們最不願意幹得事情就是為圖檔搭配文字說明。事實上這項工作必要且重要但實際操作上又非常枯燥。
不過,一個振奮人心的消息是,AI可能很快就能處理大部分工作。6月18日在加州長灘舉行的2019年計算機視覺和模式識别會議(CVPR)上,Pierre L. Dognin, Igor Melnyk, Youssef Mroueh, Jarret Ross, Tom Sercu發表了一篇論文《改進圖像說明的對抗性語義對齊》,提出了一種能夠自主制作多樣化、創造性和符合人類語境的圖檔文字說明的模型。
在論文中,他們将圖像說明作為一種有條件的GAN(生成式對抗網絡)訓練進行研究,提出了一種上下文感覺的LSTM字幕器和共同注意鑒别器,它們加強了圖像和字幕之間的語義對齊。
研究人員根據經驗着重研究了SCST和ST兩種訓練方法的可行性。他們發現即使沒有直接通路鑒别器梯度,SCST也比ST顯示出更穩定的梯度行為和更好的結果。進而還解決了對這些模型進行自動評估的開放性問題,引入了一個新的語義評分,并證明了它與人類判斷的強相關性。
作為評估範例,一個重要的标準是生成器能夠概括出平常不會一起出現的對象之間的組合關系。為此研究人員引入了一個小标題能脫離上下文(OOC)測試集。OOC與正常語義評分相結合,為圖檔搭配說明文字得體系提出了新基準。當面向OOC和MS-COCO進行測試時,可以發現基于SCST的訓練在語義評分和人類評估方面都有很強的表現,有望成為高效離散GAN訓練的一種有價值的新方法。
目前,建構系統需要解決自動說明文字系統的一個主要缺點:順序語言生成導緻文法正确—但同質、非自然和語義不相關的結構。
研究者的方法是通過一個注意力文字說明模型來解決這個問題,模型使用它正在觀察的照片中的場景片段來造句。在每一個生成步驟中,團隊的AI都可以選擇關注最後一步的視覺或文本提示。
為了確定生成的文字說明聽起來不太機械化,研究團隊在訓練時使用了生成對抗網絡(GANs)——由生成樣本的生成器和試圖區分生成樣本和現實世界樣本的鑒别器組成的兩部分神經網絡。共同注意鑒别器通過一個在像素級比對場景和生成單詞的模型對新句子的“自然度”進行評分,使文字說明者能夠通過圖像和句子成對來進行合成。
文字說明系統中的另一個常見問題是,如何避免訓練資料集的偏差,即經常遭受過度拟合(特定資料集過于接近的分析)就需要建構診斷工具,否則并不适合推廣到學習對象(“床和卧室”)出現在看不見的環境(“床和森林”)中的場景。為此,研究人員提出了一種标題圖像的測試語料庫,其設計方式使得不良模型性能表明過度拟合。
在實驗中,Amazon's Mechanical Turk評估人員負責識别AI模型生成的文字說明,并判斷每句話對相應圖像的描述程度,給出幾個真實的和合成的樣本,研究人員表示,他們的文字說明總體上取得了“良好”的性能。他們相信他們的工作為強大的新計算機視覺系統奠定了基礎,并打算在未來的工作中繼續探索這些系統。另外,銜接語言和視覺語義的鴻溝表明需要将常識和推理融入場景了解中。
未來,圖像文字說明的自動生成和場景了解的進步,使AI系統可以作為視覺障礙者的助理改善他們的日常生活。
來源:微信公衆号 人工智能觀察