天天看點

科學家提出新型調優方案,增強多模型在下遊多模态任務中的性能

作者:DeepTech深科技

以 ChatGPT 為代表的大語言模型的問世,标志着 AI 領域邁向一個新的裡程碑。

與此同時,可處理文本、圖像、音頻與視訊等資料的多模态大模型的發展,則為大語言模型添加了“眼睛”和“耳朵”,使其成為具有多元感覺能力和超強知識了解能力的綜合智能體。

由于具備優異的泛化性和遷移性,能夠提升大模型的多模态了解和生成能力,多模态大模型現已成為 AI 發展新賽道。

據了解,現行的多模态大模型範式如 LLaVA,通常遵循兩階段的訓練模式。

第一階段,視覺與語言的對齊。通過靜态投影器将視覺特征與語言模型的詞嵌入空間進行比對,讓大語言模型能夠了解視覺内容。

第二階段,多模态指令微調。通過所建構的視覺-語言指令集合對大語言模型進行微調,使其能夠更好地響應涉及視覺内容的多樣化使用者請求。

盡管這兩個階段至關重要,但與投影儀結構和大語言模型調整政策相關的研究卻還是比較少。

現有方法仍然采用靜态參數的多模态大模型架構,而這種不同任務間的參數共享模式,在處理多樣化的多模态任務時存在局限性。

為突破這一局限,來自浙江大學、上海科技大學、重慶大學、阿裡巴巴集團和哈爾濱工業大學的研究團隊,提出了 HyperLLaVA。

他們利用超參數網絡 HyperNetworks 與擴充卡 Adapter 建構動态專家子產品,根據感覺輸入感覺自适應生動态參數,将靜态多模态模型架構與動态調節的專家子產品相融合,實作在兩個階段自适應的視覺-文本投影與大語言模型參數的動态調整,進而有效提升多模态大模型在不同下遊多模态任務中的泛化能力。

具體來說:

首先,在視覺與語言對齊階段,将投影儀分解為靜态層和動态層。

其中,靜态層的參數保持不變,動态層的參數根據輸入的視覺特征動态生成,會協助靜态投影儀完成基于輸入感覺的自适應特征模組化,然後靈活地将視覺特征轉換為文本令牌,來實作細粒度的視覺-語言語義空間對齊。

其次,在多模态指令微調階段,為大語言模型配備一個語言專家,以給大語言模型塊模組化動态參數。

也就是說,将大語言模型的中間輸出視為隐式的語言先驗知識,指導語言專家為每個輸入生成獨特的參數。

語言專家能夠利用跨資料集樣本之間的相似性,避免資料集内樣本之間的潛在幹擾,進而提升多模态大模型處理下遊多模态任務的靈活性與泛化性。

此外,該語言專家還可作為多模态大模型的參數高效微調方法,擷取與全量微調相近的性能。

“我們希望提出的 HyperLLaVA,能夠為多模态大模型架構提供一個更為穩定和靈活的架構,推動拓展多模态多任務處理能力的新邊界。”參與本次研究的浙江大學“百人計劃”研究員張文橋表示。

科學家提出新型調優方案,增強多模型在下遊多模态任務中的性能

圖丨張文橋(來源:張文橋)

目前,HyperLLaVA 的具體應用可以分為以下兩個方面。

其一,在通用領域,HyperLLaVA 可以通過視覺專家和語言專家的協作,幫助大模型細緻地适應不同多模态輸入之間的細微差異,并作為即插即用的子產品,增強現有通用多模态大模型的感覺、認知與推理能力。

進一步提升多模态大模型在諸如數學推理、文案創作、自然語言翻譯等通用任務上的性能。

其二,在垂直領域,HyperLLaVA 中的視覺專家和語言專家能夠接受額外專業領域的視覺知識與文本知識,彌補通用大模型“專業性弱”的不足之處,實作資料驅動與知識驅動之間的互相引導與促進,進而在垂直領域進行指令微調時,提升多模态大模型的專業性與可信性。

比如,在金融領域,回答投資者所提問題并為其提供相應建議,輔助他們做出良好的投資決策。

在法律領域,幫助使用者和律師分别進行法律咨詢和法律事務處理;在醫學領域,輔助醫生進行診斷和治療,減輕他們的工作壓力。

科學家提出新型調優方案,增強多模型在下遊多模态任務中的性能

圖丨與 LLaVA 相比,HyperLLaVA 在不同的多模态大模型基準測試中實作了卓越性能(來源:arXiv)

近日,相關論文以《HyperLLaVA:多模态大型語言模型的動态視覺和語言專家調優》(HyperLLaVA: Dynamic Visual and Language Expert Tuning for Multimodal Large Language Models)為題在預印本平台 arXiv 上發表[1]。

浙江大學張文橋、上海科技大學林天衛和重慶大學劉江是第一作者,浙江大學莊越挺教授和李俊成,以及阿裡巴巴集團姜浩擔任通訊作者。

科學家提出新型調優方案,增強多模型在下遊多模态任務中的性能

圖丨相關論文(來源:arXiv)

據張文橋介紹,該研究始于對目前多模态大模型的綜合評估。

“盡管越來越多的研究傾向于采用混合專家模型(MoE,Mixture of Experts),即通過為不同領域培養專門的專家并借鑒內建學習的政策,來增強模型的整體性能。

但如何在訓練過程中有效地将特定語料與對應的專家準确比對,仍然是一個棘手的問題。”他說。

此外,随着大模型技術的進步,單一的靜态模型在處理多模态和多任務時存在一定局限性,即使是混合專家模型也存在特定專家之間的知識沖突和遺忘問題。

是以這種固定的靜态參數架構可能會限制不同下遊任務的性能表現。

也正是現有靜态多模态大模型架構存在的局限性,激發了該課題組對探索動态政策的興趣,進而為進一步的研究打下基礎。

接着,在概念化階段,該團隊密切關注該領域的最新發展和可能的解決政策,并對多任務和多領域的相關工作進行深入調研。

“通過結合最新的研究成果和文獻進行廣泛的思考和讨論,我們提出了 HyperLLaVA 的初步概念,這是一種能夠利用超參數網絡動态生成視覺和語言專家,進而自适應調整參數的模型。”張文橋表示。

在明确研究方向和方法之後,研究人員開始着手 HyperLLaVA 的實際開發與實驗。

他們對初步的原型模型進行嚴格評估,然後根據性能名額和回報展開了持續優化與疊代。

據了解,這一疊代過程對于推動模型性能的極緻發展,及驗證其實際應用的可行性來說非常關鍵。

随後,他們又把改良後的模型放在多個基準測試和真實場景中進行廣泛的實驗驗證,旨在評估其性能,以及與現有的模型進行比較。

另外,他們還開展了一系列消融實驗,并通過對比分析深入探讨了模型的工作原理,詳細記錄了研究過程、方法論、實驗結果及其解釋性分析。

張文橋表示,在研究開展的過程中,當該課題組決定使用超參數網絡來增強視覺和語言專家的性能之後,先嘗試采用了一個龐大的網絡結構,但卻發現這會導緻多模态大模型訓練的不可控,進而無法達到預期效果。

“據我們分析,這是由于生成的網絡參數規模太大,訓練資料無法拟合。”張文橋表示。

是以,在後續的諸多測試中,他們花費大量時間與資源進行調試,卻都無法取得較好的效果。

“我們甚至一度放棄了提出的方案。”張文橋坦言。

然而,在一次偶然的測試中,該團隊發現模型在較小次元下展現出意外的性能優勢與訓練穩定性。

這讓他們決定結合上下采樣網絡結構,對生成網絡參數的規模進一步控制,最終有效提升了網絡訓練的可控性與泛化性。

除此之外,研究人員也觀察到超參數網絡作為一種動态調整機制,在某種程度上與元學習存在相似性。

這既能增強模型跨領域應用的能力,又能使模型在訓練過程中即刻利用這種跨領域的潛能來進行自我調整。

而在該研究的基礎上,該課題組也會繼續關注最新的大模型技術進展,探索如何進一步完善 HyperLLaVA,并在多模态大模型領域開拓新的強大範式。

比如,在模型架構層面,結合混合專家 MoE 技術訓練通用視覺/語言專家與特定視覺/語言專家,通過二者的協作與融合進一步提升多模态大模型在下遊任務的泛化性。

在模型規模層面,收集更大規模的多模态訓練指令,并在更大的基座語言模型(如 34B、130B)上進行模型訓練,進而建構更強大的通用多模态大模型。

在應用示範上,于醫療領域實作初步落地,建構基于醫療影像、醫療知識圖譜、醫療問診庫等多模态指令資料,實作細粒度的醫學影像解析、基礎基本問診、診斷報告生成等功能。

參考資料:

1.W.,Zhang,T.,Lin,J.,Liu.et al. HyperLLaVA: Dynamic Visual and Language Expert Tuning for Multimodal Large Language Models. arXiv:2403.13447.https://doi.org/10.48550/arXiv.2403.13447

營運/排版:何晨龍

繼續閱讀