天天看點

細數NLP與CV的融合創新:盤點多模态深度學習這幾年

作者:機器之心Pro

機器之心報道

編輯:悉閑

本文概述了最先進的多模态深度學習研究中使用的各類方法。

近年來,NLP 和 CV 領域在方法上突破不斷。不隻是單模态模型有所進展,而大規模多模态方法也已經成為非常熱門的研究領域。

細數NLP與CV的融合創新:盤點多模态深度學習這幾年

論文位址:https://arxiv.org/pdf/2301.04856v1.pdf

項目位址:https://github.com/slds-lmu/seminar_multimodal_dl

在最近的一篇論文中,研究者Matthias Aßenmacher回顧梳理了深度學習這兩個子領域目前最先進的研究方法,并嘗試進行全面的概述。此外,還讨論了将一種模态轉換為另一種模态的模組化架構(第 3.1 章和第 3.2 章),以及利用一種模态增強另一種模态的表征學習模型(第 3.3 章和第 3.4 章)。研究者引入了側重同時處理兩種模态的架構(第 3.5 章)作為第二部分的尾聲。最後,論文還涵蓋了其他模态(第 4.1 章和第 4.2 章)以及通用多模态模型(第 4.3 章),這些模型能夠在一個統一架構中處理不同模态上的不同任務。一個有趣的應用(「生成藝術」,第 4.4 章)最終成為這篇綜述的錦上添花之筆。

論文章節目錄如下:

細數NLP與CV的融合創新:盤點多模态深度學習這幾年

多模态深度學習簡介

人類有五種基本感官:聽覺、觸覺、嗅覺、味覺和視覺。借由這五種模式,我們得以感覺和了解周圍的世界。「多模态」則意味着同時利用多種資訊管道的結合來了解周圍環境。例如,當蹒跚學步的孩子學習「貓」這個詞時,他們會用不同的方式大聲說出這個詞,指着貓,發出類似「喵喵」的聲音。AI 研究人員以人類學習過程為範式,結合不同模态來訓練深度學習模型。

從表面上看,深度學習算法通過訓練神經網絡以優化損失函數來優化定義的目标函數。優化,即将損失最小化,通過稱為梯度下降的數值優化程式完成。是以,深度學習模型隻能處理數字輸入,也隻能産生數字輸出。然而,在多模态任務中,我們經常遇到圖檔或文本等非結構化資料。是以,關于多模态任務的首要問題是如何用數字表征輸入;其次則是如何恰當地組合不同模态。

例如,訓練深度學習模型來生成一張貓的圖檔可能就是一個典型的任務。首先,計算機需要了解文本輸入「貓」,然後以某種方式将這些資訊轉換成特定圖像。是以,确定輸入文本中單詞間的上下文關系和輸出圖像中像素點間的空間關系很有必要。對幼兒來說可能很容易這件事,對于計算機卻可能是巨大挑戰。二者都必須對「貓」這個詞有一定了解,包括這個動物的内涵和外觀。

目前深度學習領域一種常見方法是生成嵌入,用數字形式将貓表征為某個潛在空間中的向量。為了實作這一點,近年來已經開發出各種方法和算法架構。本文概述了最先進(SOTA)多模态深度學習中使用的各類方法,以克服非結構化資料和不同模态輸入組合帶來的挑戰。

章節介紹

因為多模态模型通常以文本和圖像作為輸入或輸出,是以第2章着重介紹了自然語言處理(NLP)和計算機視覺(CV)方法。NLP 領域的方法主要在于文本資料處理,而 CV 多進行圖像處理。

關于 NLP(第 2.1 小節)的一個非常重要的概念叫做詞嵌入,幾乎是現在所有多模态深度學習架構的重要組成部分。這一概念也為基于Transformer的模型奠定了基礎,比如 BERT ,該模型在幾個 NLP 任務中都取得了重大進展。特别是Transformer的自注意力機制徹底改變了 NLP 模型,這也是為什麼大多數 NLP 模型将Transformer作為核心。

在計算機視覺(第 2.2 小節)中,作者介紹裡不同的網絡架構,即 ResNet、EfficientNet、SimCLR和BYOL。在這兩個領域,比較不同方法及其在富有挑戰性的基準上表現如何是非常有意義的。是以,第 2 章末 2.3 小節對 CV 和 NLP 的不同資料集、預訓練任務和基準進行了全面概括。

第3章側重于不同的多模态架構,涵蓋文本和圖像的多種組合方式,提出的模型相組合并推進了 NLP 和 CV 不同方法的研究。首先介紹了 Img2Text 任務(第 3.1 小節)、用于目辨別别的 Microsoft COCO 資料集和用于圖像捕獲的Meshed-Memory Transformer。

另外,研究人員開發了基于短文本 prompt 生成圖檔的方法(第 3.2 小節)。完成這項任務的第一個模型是生成對抗網絡(GAN)和變分自編碼器(VAE)。近年來,這些方法不斷改進,今天的 SOTA Transformer架構和文本引導的擴散模型如 DALL-E和 GLIDE都取得了顯著成果。另一個有趣的問題是,如何利用圖像來支援語言模型(第 3.3 小節)。可通過順序嵌入、更進階的實際嵌入或直接在Transformer内部實作。

也可以看一下支援文本的 CV 模型,如 CLIP、ALIGN和 Florence(第 3.4 小節)。基礎模型的使用意味着模型重用(例如 DALL-E 2 中的 CLIP),以及文本與圖像連接配接的對比損失。此外,zero-shot 使得通過微調就可毫不費力對新的和不可見的資料進行分類。特别是用于圖像分類和生成的開源架構 CLIP去年頗受關注。第3章末介紹了同時處理文本和圖像的一些其他架構(第 3.5 小節)。

例如,Data2Sec 用相同的學習方法處理語音、視覺和語言,并嘗試以此找到一種通用方法,能在一個架構中處理不同模态。此外,VilBert擴充了流行的 BERT 架構,通過實作共同注意力來處理圖像和文本輸入。這種方法也用于谷歌的 Deepmind Flamingo。此外,Flamingo 的目标是通過少樣本學習和當機預訓練的視覺和語言模型,用單個視覺語言模型處理多個任務。

最後一章(第 4 章)介紹了能夠處理文本和圖像以外模态的方法,例如視訊、語音或表格資料。總體目标是探索通用的多模态架構,并非為模态而模态,而是為從容應對挑戰。是以還需處理多模态融合和對齊的問題,決定要使用聯合表征還是協調表征(第 4.1 小節)。此外,還将更詳細地介紹如何精準組合結構化資料和非結構化資料(第 4.2 小節)。

作者還提出了近年來形成的不同融合政策,本文通過生存分析和經濟學中的兩個用例加以說明。除此之外,另一個有趣的研究問題是,如何在一個所謂的多用途模型(第 4.3 小節)中處理不同任務,就像谷歌研究人員在其「Pathway」模型中建立的那樣。最後,文章會展示多模态深度學習在藝術場景中的一個典型應用,使用 DALL-E等圖像生成模型來建立生成藝術領域的藝術作品(第 4.4 小節)。

繼續閱讀