天天看點

NLP新秀prompt跨界出圈,清華劉知遠最新論文将它應用到VLM圖像端與微調差别在哪?清華将它用到圖像端CV領域能借鑒嗎?

作者:量子位

蕭偉來自凹非寺

量子比特報告|公衆号 QbitAI

NLP新手提示,最近有點火風暴。

NLP新秀prompt跨界出圈,清華劉知遠最新論文将它應用到VLM圖像端與微調差别在哪?清華将它用到圖像端CV領域能借鑒嗎?

它還越過了VLM(視覺語言模型,視覺語言模型)的界限。

OpenAI的CLIP和南洋理工大學的CoOp等公司都采用了這個想法。

現在,在清華大學劉志遠副教授團隊最近發表的一篇關于視覺語言模型的論文中,也提出了一種基于提示的新方法。

NLP新秀prompt跨界出圈,清華劉知遠最新論文将它應用到VLM圖像端與微調差别在哪?清華将它用到圖像端CV領域能借鑒嗎?

根據論文,這也是該提示首次用于跨模型和零樣本/小樣本學習視覺定位。

從目前的NLP和VLM模型來看,很多基于提示的模型效果都不錯,讓CV學生也有零食動作——你能給我們一個整體嗎?

那麼,提示有什麼好處,當應用于圖像的末尾時,它能很好地工作嗎?

讓我們來看看。

<h1類""pgc-h-arrow-right"data-track""10">和微調有什麼差別?</h1>

最初,當NLP模型不是太大時,以"預訓練和微調"的方式設計了特定于任務的模型。

在這種模式下,研究人員預先訓練一個工作得更好的模型,然後将一些參數調整為特定任務(下遊任務),同時保留大多數模型參數,使其最适合此任務。

NLP新秀prompt跨界出圈,清華劉知遠最新論文将它應用到VLM圖像端與微調差别在哪?清華将它用到圖像端CV領域能借鑒嗎?

例如,BERT 作為預訓練模型

然而,随着預訓練模型變得越來越大,微調的成本(訓練時間,所需的資料量等)增加,研究人員正在努力尋找更好的方法。

此時将顯示提示,但這次針對下遊任務進行了調整。

它有點像一個輸入模闆,用于"提示"預訓練模型,該模型一旦"看到"它就知道它将完成什麼。

例如,在情緒分類任務中,您希望預訓練模型欣賞輸入句子的情緒,并給出形容詞對其進行分類:

輸入"我喜歡這部電影"。一旦你提前給出了"這部電影是"的提示,讓預先訓練的模型看到它,并知道你想輸出像"很棒/很好"這樣的贊美。

通過這種方式,預訓練模型可以在看到相應的提示時選擇正确的詞彙類型,而不是"逃跑"去做别的事情。

由于提示在NLP領域的良好應用,許多研究人員已經開始在與NLP相關的VLM模型中嘗試這種方法。

< h1類"pgc-h-right-arrow"資料軌道""21">清華在圖像側使用它</h1>

當然,大多數應用提示的原始 VLM 模型仍應用于文本端。

根據陀飛輪的介紹,像OpenAI CLIP、NTU CoOp這兩款VLM機型一樣,應用類似于PET表款在NLP中的應用。

從他們的模型設計中,從文本方面可以清楚地看出,小号的陰影是可見的,就像剪貼中的"a的照片"一樣:

NLP新秀prompt跨界出圈,清華劉知遠最新論文将它應用到VLM圖像端與微調差别在哪?清華将它用到圖像端CV領域能借鑒嗎?

以及CoOp對CLIP的進一步改進,可以針對訓練中的自我優化進行優化:

NLP新秀prompt跨界出圈,清華劉知遠最新論文将它應用到VLM圖像端與微調差别在哪?清華将它用到圖像端CV領域能借鑒嗎?

這些提示應用程式改進了 VLM 模型的整體輸出。

但是,這基本上是VLM在文本端的應用,提示是否适合在圖像端使用?

在清華大學劉志遠團隊最近的一篇論文中,在VLM的圖像端以彩色塗層的方式建立了一個視覺子提示。

NLP新秀prompt跨界出圈,清華劉知遠最新論文将它應用到VLM圖像端與微調差别在哪?清華将它用到圖像端CV領域能借鑒嗎?

當然,文本端也适用于提示,但據劉志遠先生介紹,在文本側應用提示,感覺不足以充分發揮提示調校的作用,是以本文嘗試了一種交态提示調諧方法。

從試卷結果來看,在小鏡頭學習(小鏡頭)的情況下,該方法比微調能取得更好的效果。

NLP新秀prompt跨界出圈,清華劉知遠最新論文将它應用到VLM圖像端與微調差别在哪?清華将它用到圖像端CV領域能借鑒嗎?

但是,這是 VLM 上提示的另一次嘗試。

是否适合處理CV領域的圖像問題?

<>CV的字段可以在h1類""pgc-h-arrow-right-"資料軌道"?33中引用?</h1>

在知識上,有很多部落客給出了自己的觀點。

據了解,陀飛輪在方法方面給出了兩條路徑:

如果是純粹面向 CV 的提示,類似于 ViT 将圖檔拆分為更新檔,每個更新檔實際上都可以看作是一個字元,那麼您也可以設計 patchprompt 來訓練模型,這也可以分為生成(類似于 ViT)和差分(類似于自監督)兩種方法。

@yearn認為,就目前而言,連續提示是CV最有可能的工作範圍,最近transformer正準備通過将圖像輸入轉換為更新檔形式,使研究人員更容易使用NLP的方法學習提示。

當然,@yearn還表示,如果你想真正将提示應用于履歷,需要解決兩個挑戰:

1、CV還不存在BERT、GPT這樣占主導地位的預訓練模型,是以在不久的将來可能很難讓項目做新一輪的學習集搬過來。

2、CV下遊任務比較複雜,感覺檢測、拆分這類任務放的項目工作量非常大。

但也有匿名使用者直接認為,圖像隻能以非常尴尬的方式完成。當然,視訊可能會更好。

NLP新秀prompt跨界出圈,清華劉知遠最新論文将它應用到VLM圖像端與微調差别在哪?清華将它用到圖像端CV領域能借鑒嗎?

那麼,你認為提示可以在履歷中使用嗎?

劉志遠團隊的最新論文:

https://arxiv.org/abs/2109.11797

知情回答(授權):

陀飛輪: https://www.zhihu.com/question/487096135/answer/2127127513

@yearn:.com 487096135/答案/2124603834

- 完成 -

量子位 QbitAI 頭條簽名

關注我們,搶先了解尖端技術

繼續閱讀