天天看點

百萬魯棒資料訓練,3D場景大語言模型新SOTA!IIT等釋出Robin3D

編輯:LRST

【新智元導讀】Robin3D通過魯棒指令資料生成引擎(RIG)生成的大規模資料進行訓練,以提高模型在3D場景了解中的魯棒性和泛化能力,在多個3D多模态學習基準測試中取得了優異的性能,超越了以往的方法,且無需針對特定任務的微調。

多模态大語言模型(Multi-modal Large Language Models, MLLMs)以文本模态為基礎,将其它各種模态對齊至語言模型的語義空間,進而實作多模态的了解和對話能力。近來,越來越多的研究聚焦于3D大語言模型(3DLLM),旨在實作對3D物體以及複雜場景的了解,推理和自由對話。

與2D MLLM所能接觸的廣泛的多模态資料不同,3DLLM的訓練資料相對稀少。

即便過去有些工作嘗試生成更多的多模态指令資料,但這類模型仍然在指令的魯棒性上存在兩點不足:

1. 絕大多數3D多模态指令資料對是正樣本對,缺乏負樣本對或者對抗性樣本對。模型在這種資料上訓練缺乏一定的辨識能力,因為無論被問到什麼問題,模型隻會輸出正面的回答。是以碰到問題與場景無關時,模型也更容易出現幻覺。這種模型有可能隻是記住了正樣本對,而非真正地了解被問及的場景、物體、以及具體的指令。

2. 由于在造資料的過程中,人類标注員或者生成式大語言模型是按照既定的規則去描述物體的,很多由這些描述所轉換而來的指令缺乏多樣性。甚至有的資料是直接按照模闆生成的。

為了解決以上問題,伊利諾伊理工大學、浙江大學、中佛羅裡達大學、伊利諾伊大學芝加哥分校提出一個強大3DLLM——Robin3D,在大規模魯棒資料上進行訓練。

百萬魯棒資料訓練,3D場景大語言模型新SOTA!IIT等釋出Robin3D

論文位址:https://arxiv.org/abs/2410.00255

文中提出了「魯棒指令資料生成引擎」(Robust Instruction Generation, RIG),可以生成兩種資料:

1. 對抗性指令資料。該資料特點在于在訓練集或者單個訓練樣本中,混合了正樣本和負樣本對(或者對抗樣本對),進而使得模型在該類資料集訓練能獲得更強的辨識能力,該資料包含了物體層面到場景層面的、基于類别的指令和基于表達的指令,最終形成了四種新的訓練任務,幫助模型解耦對正樣本對的記憶。

2. 多樣化指令資料,首先全面收集現有研究中的各種指令類型,或将一些任務轉化為指令跟随的格式。為了充分利用大語言模型強大的上下文學習能力,研究人員使用ChatGPT,通過為每個任務定制的特定提示工程模闆來多樣化指令的語言風格。

将這些與現有基準的原始訓練集相結合,研究人員建構了百萬級指令跟随樣本,其中約有34.4萬個對抗性資料(34%)、50.8萬個多樣化資料(50%)和16.5 萬個基準資料(16%),如圖1(右)所示。

百萬魯棒資料訓練,3D場景大語言模型新SOTA!IIT等釋出Robin3D

圖1 Robin3D在建構的百萬級資料上訓練(右),最終在所有3D多模态資料集上的性能超過之前的SOTA(左)

Robin3D在模型上與Chat-Scene類似:使用Mask3D,Uni3D來抽3D物體級别的特征,使用Dinov2來抽2D物體級别的特征,使用物體ID來指定和定位物體。

先前的方法在抽物體特征的時候,由于其物體級别的規範化(normalization),不可避免的丢失了物體間的3D空間關系。同時簡單的物體ID和物體特征拼接缺乏對ID-特征的充分聯結,使其在這種複雜的指令資料上面臨訓練的困難,而Robin3D引入了關系增強投射器來增強物體的3D空間關系,并使用ID-特征捆綁來增強指代和定位物體時ID與特征之間的聯系。

最終Robin3D在所有的3D場景多模态資料集上達到一緻的SOTA,并且不需要特定任務的微調。

方法

百萬魯棒資料訓練,3D場景大語言模型新SOTA!IIT等釋出Robin3D

圖2 Robin3D的模型結構

關系增強投射器

如圖2所示,關系增強投射器(Relation-Augmented Projector, RAP)考慮三種特征:

1. Mask3D所抽取的場景級别特征,這種特征經過多層cross-attention充分互動了語意和位置關系;

2. Mask3D裡的位置嵌入特征,這種特征由物體超點直接轉換而來,代表了物體間的位置關系。

3. Uni3D抽取的統一物體級别特征,這種特征和語言進行過大規模的對齊訓練。

百萬魯棒資料訓練,3D場景大語言模型新SOTA!IIT等釋出Robin3D

圖3 RAP公式

如圖3所示,通過MLP和短接的方式,對三種特征進行高效的融合,最終實作了即保持強大的統一物體級别語意資訊、又增強了物體之間的空間位置關系。

ID-特征捆綁

如圖1所示,的ID-特征捆綁(ID-Feature Bonding, IFB)主要包含兩個操作。首先,使用兩個相同的ID來包裹其物體特征。

由于LLM的因果注意力機制,這種方法通過第一個ID将ID資訊與物體特征關聯起來,并通過第二個ID将物體資訊與其ID關聯起來。

其次,提出了一個後視覺順序,将視覺tokens放置在輸入序列的末尾,靠近模型生成的答案标記。

該方法減少了由于tokens間的相對距離和LLM中旋轉位置嵌入所導緻的從答案tokens到ID-特征tokens的注意力減弱問題,同時增強了視覺資訊對答案tokens的注意力影響,進而提升答案生成效果。

魯棒指令資料生成引擎

對抗性資料生成

百萬魯棒資料訓練,3D場景大語言模型新SOTA!IIT等釋出Robin3D

圖4 對抗性資料的四種任務

如圖4,的對抗性資料形成了四種新的具備挑戰性的任務HOPE、HROC、PF-3DVG和3DFQA,包含了從物體到場景、從基于類比到基于表達的不同指令。

圖4左上:Hybrid Object Probing Evaluation (HOPE)

為了建構一個場景級别的基于類别的任務,引入了HOPE,靈感來自2D領域的POPE基準。POPE通過詢問關于單個物體存在與否的是/否問題,評估2DMLLMs産生幻覺的傾向。在此基礎上,HOPE将這種幻覺挑戰擴充到3D領域的訓練階段,旨在讓模型更具辨識力。

此外,HOPE引入了一個混合場景,增加複雜性,進一步推動模型對記憶中的視覺與語言正樣本的解耦。

具體來說,在給定的3D場景中,要求模型判斷多個随機指定的物體是否存在。物體可能存在或不存在,且每個存在的物體可能有一個或多個執行個體。

當物體不存在時,模型需回答「否」;當物體存在時,需回答「是」并提供每個執行個體的物體ID。這一設定結合了正負物體的混合識别與多執行個體物體定位,具有很高的挑戰性。

圖4右上:Hybrid Referring Object Classification (HROC)

指代物體分類任務旨在評估模型在2D域中識别指代區域的能力,使用「區域輸入,文本輸出」的形式。HROC将此任務擴充到3D領域,建立了一個物體級别的基于類别的任務,并結合了對抗性和混合挑戰。

在3D場景中,随機生成混合的正負ID-類别樣本對來提出問題。正樣本對包含一個有效的物體ID和對應的真實類别,負對則包含一個有效的物體ID和随機選擇的非真實類别,作為對抗性挑戰。模型需對正樣本對回答「是」,對負對回答「否」并給出正确類别。

圖4左下:Partial Factual 3D Visual Grounding (PF-3DVG)

PF-3DVG引入了一個場景級别的基于表達的任務,涵蓋三種資料類型:非真實資料、部分真實資料和真實資料。

非真實資料:在3D場景中,随機選擇Sr3D+中的描述,其中所描述的物體不存在與目前3D場景。模型需回答「否」。

部分真實資料:給定Sr3D+的描述及對應的3D場景,随機修改描述中的空間關系。例如,将「沙發上的枕頭」改為「沙發下的枕頭」。

模型需糾正資訊并回答「它是在『上面』」,同時提供物體ID。團隊確定描述的目标物體類别是目前場景唯一的、無幹擾項,以避免歧義。真實資料:随機增強空間關系的同義詞以提高多樣性,例如,将「below」替換為「under」、「beneath」或「underneath」。

圖4右下:Faithful 3D Question Answering (3DFQA)

原始的3D問答任務僅包含正樣本,可能導緻模型記住固定的3D場景和問答對。為了解決這一問題,提出3DFQA,一個結合了負樣本和正樣本的場景級别的基于表達的QA任務,其增加了定位的要求。

建構負樣本時,從ScanQA中抽取問答對,并收集問題或答案中的相關物體,然後随機選擇一個缺少這些物體的3D場景。在原來的問題上,新增一個指令:「如果可以,請回答……并提供所有ID……」。

此時,模型必須回答「否」,并且不提供任何物體ID,展現其對場景的依賴而不會胡言亂語總給出正面回複。正樣本直接取自ScanQA,模型需回答問題并提供相關物體的ID作為答案的依據。

是以,訓練在的3DFQA資料集上的模型不能依靠記憶,而是要學會對正負樣本做出忠實回應并有理有據。

多樣化資料生成

多樣化資料旨在通過結合多種不同任務類型的指令資料,并提高指令的語言多樣性,進而增強模型的泛化能力。首先從基準資料集之外的不同任務中收集大規模資料。

具體而言,給定一個3D場景,收集以下任務的問答對:類别問答任務(來自Chat-Scene),Nr3D描述生成任務(轉換自Nr3D),外觀描述生成任務(來自Grounded-3DLLM),區域描述生成任務(來自Grounded-3DLLM),端到端3D視覺定位(轉換自Nr3D),端到端3D視覺定位(轉換自Sr3D+)。

百萬魯棒資料訓練,3D場景大語言模型新SOTA!IIT等釋出Robin3D

圖5 多樣化資料的生成流程和詳細的提示工程

為了豐富表述風格,開發了一個可擴充的流程,利用ChatGPT的上下文學習能力對上述資料進行重述。這通過一組示例和結構化提示工程實作,如圖5(上)所示。

具體而言,給定一個收集的指令資料集D_task(其中任務包括ScanRefer、Multi3DRefer、Nr3D、Sr3D+、Nr3D Captioning、ScanQA、SQA3D、PF-3DVG和3DFQA),建構了一個系統提示P_system,以訓示重述的要求和結構化的輸出格式,同時提供一個示例提示P_eg,以幫助ChatGPT更好地了解要求。

還随機選擇一個溫度參數T(從[1.1, 1.2, 1.3]中選取)以增加輸出的随機性和多樣性。的重述輸出D_rephrase通過公式D_rephrase = M(P_system, P_eg, D_task, T)生成,其中M是ChatGPT的GPT-4o版本。

圖5(上)詳細說明了P_system和P_eg的内容,以ScanRefer資料為例。通過使用sentence=和rephrase=的結構化提示,GPT-4o能夠輕松遵循要求,可以通過檢測rephrase=關鍵字友善地收集輸出。

圖5(下)提供了每個任務的示例提示的詳細資訊。由于Nr3D Captioning源于Nr3D,PF-3DVG源于Sr3D+,而3DFQA源于ScanQA,是以不再為這些任務提供額外示例。

實驗

主要結果

百萬魯棒資料訓練,3D場景大語言模型新SOTA!IIT等釋出Robin3D

表1 性能對比結果

如表1所示,由于RIG生成的魯棒指令資料,Robin3D在所有基準測試中顯著超越了之前的模型。具體而言,Robin3D在Scan2Cap [email protected]上帶來了6.9%的提升,在ScanRefer [email protected]上帶來了5.3%的提升。值得注意的是,在包含零目标案例的Multi3DRefer評估中,這些案例對模型的區分能力提出了挑戰,并要求模型能夠回答「No」。的Robin3D在[email protected]上實作了7.8%的提升,在[email protected]上實作了7.3%的提升。

消融實驗

百萬魯棒資料訓練,3D場景大語言模型新SOTA!IIT等釋出Robin3D

表2和表3 消融實驗結果

如表2和表3所示,對提出的對抗性資料和多樣化資料進行了消融實驗,也對模型結構上RAP和IFB的提出做了消融實驗。實驗結果在所有benchmark上都證明了他們一緻的有效性。

特别的,在表2中,對抗性資料對描述生成任務Scan2Cap帶來了8.9%的提升,然而對抗性資料是不存在描述生成任務的,并且也不存在同源的資料(Scan2Cap資料源自ScanRefer, 但對抗性資料無源自ScanRefer的資料)。這種大幅的提升展現了對抗性資料對模型識别能力的提升。

參考資料:

https://arxiv.org/abs/2410.00255

繼續閱讀