編輯：LRST

【新智元導讀】Robin3D通過魯棒指令資料生成引擎（RIG）生成的大規模資料進行訓練，以提高模型在3D場景了解中的魯棒性和泛化能力，在多個3D多模态學習基準測試中取得了優異的性能，超越了以往的方法，且無需針對特定任務的微調。

多模态大語言模型（Multi-modal Large Language Models, MLLMs）以文本模态為基礎，将其它各種模态對齊至語言模型的語義空間，進而實作多模态的了解和對話能力。近來，越來越多的研究聚焦于3D大語言模型（3DLLM），旨在實作對3D物體以及複雜場景的了解，推理和自由對話。

與2D MLLM所能接觸的廣泛的多模态資料不同，3DLLM的訓練資料相對稀少。

即便過去有些工作嘗試生成更多的多模态指令資料，但這類模型仍然在指令的魯棒性上存在兩點不足：

1. 絕大多數3D多模态指令資料對是正樣本對，缺乏負樣本對或者對抗性樣本對。模型在這種資料上訓練缺乏一定的辨識能力，因為無論被問到什麼問題，模型隻會輸出正面的回答。是以碰到問題與場景無關時，模型也更容易出現幻覺。這種模型有可能隻是記住了正樣本對，而非真正地了解被問及的場景、物體、以及具體的指令。

2. 由于在造資料的過程中，人類标注員或者生成式大語言模型是按照既定的規則去描述物體的，很多由這些描述所轉換而來的指令缺乏多樣性。甚至有的資料是直接按照模闆生成的。

為了解決以上問題，伊利諾伊理工大學、浙江大學、中佛羅裡達大學、伊利諾伊大學芝加哥分校提出一個強大3DLLM——Robin3D，在大規模魯棒資料上進行訓練。

論文位址：https://arxiv.org/abs/2410.00255

文中提出了「魯棒指令資料生成引擎」（Robust Instruction Generation, RIG），可以生成兩種資料：

1. 對抗性指令資料。該資料特點在于在訓練集或者單個訓練樣本中，混合了正樣本和負樣本對（或者對抗樣本對），進而使得模型在該類資料集訓練能獲得更強的辨識能力，該資料包含了物體層面到場景層面的、基于類别的指令和基于表達的指令，最終形成了四種新的訓練任務，幫助模型解耦對正樣本對的記憶。

2. 多樣化指令資料，首先全面收集現有研究中的各種指令類型，或将一些任務轉化為指令跟随的格式。為了充分利用大語言模型強大的上下文學習能力，研究人員使用ChatGPT，通過為每個任務定制的特定提示工程模闆來多樣化指令的語言風格。

将這些與現有基準的原始訓練集相結合，研究人員建構了百萬級指令跟随樣本，其中約有34.4萬個對抗性資料（34%）、50.8萬個多樣化資料（50%）和16.5 萬個基準資料（16%），如圖1（右）所示。

圖1 Robin3D在建構的百萬級資料上訓練（右），最終在所有3D多模态資料集上的性能超過之前的SOTA（左）

Robin3D在模型上與Chat-Scene類似：使用Mask3D，Uni3D來抽3D物體級别的特征，使用Dinov2來抽2D物體級别的特征，使用物體ID來指定和定位物體。

先前的方法在抽物體特征的時候，由于其物體級别的規範化(normalization)，不可避免的丢失了物體間的3D空間關系。同時簡單的物體ID和物體特征拼接缺乏對ID-特征的充分聯結，使其在這種複雜的指令資料上面臨訓練的困難，而Robin3D引入了關系增強投射器來增強物體的3D空間關系，并使用ID-特征捆綁來增強指代和定位物體時ID與特征之間的聯系。

最終Robin3D在所有的3D場景多模态資料集上達到一緻的SOTA，并且不需要特定任務的微調。

方法

圖2 Robin3D的模型結構

關系增強投射器

如圖2所示，關系增強投射器(Relation-Augmented Projector, RAP)考慮三種特征：

1. Mask3D所抽取的場景級别特征，這種特征經過多層cross-attention充分互動了語意和位置關系；

2. Mask3D裡的位置嵌入特征，這種特征由物體超點直接轉換而來，代表了物體間的位置關系。

3. Uni3D抽取的統一物體級别特征，這種特征和語言進行過大規模的對齊訓練。

圖3 RAP公式

如圖3所示，通過MLP和短接的方式，對三種特征進行高效的融合，最終實作了即保持強大的統一物體級别語意資訊、又增強了物體之間的空間位置關系。

ID-特征捆綁

如圖1所示，的ID-特征捆綁（ID-Feature Bonding, IFB）主要包含兩個操作。首先，使用兩個相同的ID來包裹其物體特征。

由于LLM的因果注意力機制，這種方法通過第一個ID将ID資訊與物體特征關聯起來，并通過第二個ID将物體資訊與其ID關聯起來。

其次，提出了一個後視覺順序，将視覺tokens放置在輸入序列的末尾，靠近模型生成的答案标記。

該方法減少了由于tokens間的相對距離和LLM中旋轉位置嵌入所導緻的從答案tokens到ID-特征tokens的注意力減弱問題，同時增強了視覺資訊對答案tokens的注意力影響，進而提升答案生成效果。

魯棒指令資料生成引擎

對抗性資料生成

圖4 對抗性資料的四種任務

如圖4，的對抗性資料形成了四種新的具備挑戰性的任務HOPE、HROC、PF-3DVG和3DFQA，包含了從物體到場景、從基于類比到基于表達的不同指令。

圖4左上：Hybrid Object Probing Evaluation (HOPE)

為了建構一個場景級别的基于類别的任務，引入了HOPE，靈感來自2D領域的POPE基準。POPE通過詢問關于單個物體存在與否的是/否問題，評估2DMLLMs産生幻覺的傾向。在此基礎上，HOPE将這種幻覺挑戰擴充到3D領域的訓練階段，旨在讓模型更具辨識力。

此外，HOPE引入了一個混合場景，增加複雜性，進一步推動模型對記憶中的視覺與語言正樣本的解耦。

具體來說，在給定的3D場景中，要求模型判斷多個随機指定的物體是否存在。物體可能存在或不存在，且每個存在的物體可能有一個或多個執行個體。

當物體不存在時，模型需回答「否」；當物體存在時，需回答「是」并提供每個執行個體的物體ID。這一設定結合了正負物體的混合識别與多執行個體物體定位，具有很高的挑戰性。

圖4右上：Hybrid Referring Object Classification (HROC)

指代物體分類任務旨在評估模型在2D域中識别指代區域的能力，使用「區域輸入，文本輸出」的形式。HROC将此任務擴充到3D領域，建立了一個物體級别的基于類别的任務，并結合了對抗性和混合挑戰。

在3D場景中，随機生成混合的正負ID-類别樣本對來提出問題。正樣本對包含一個有效的物體ID和對應的真實類别，負對則包含一個有效的物體ID和随機選擇的非真實類别，作為對抗性挑戰。模型需對正樣本對回答「是」，對負對回答「否」并給出正确類别。

圖4左下：Partial Factual 3D Visual Grounding (PF-3DVG)

PF-3DVG引入了一個場景級别的基于表達的任務，涵蓋三種資料類型：非真實資料、部分真實資料和真實資料。

非真實資料：在3D場景中，随機選擇Sr3D+中的描述，其中所描述的物體不存在與目前3D場景。模型需回答「否」。

部分真實資料：給定Sr3D+的描述及對應的3D場景，随機修改描述中的空間關系。例如，将「沙發上的枕頭」改為「沙發下的枕頭」。

模型需糾正資訊并回答「它是在『上面』」，同時提供物體ID。團隊確定描述的目标物體類别是目前場景唯一的、無幹擾項，以避免歧義。真實資料：随機增強空間關系的同義詞以提高多樣性，例如，将「below」替換為「under」、「beneath」或「underneath」。

圖4右下：Faithful 3D Question Answering (3DFQA)

原始的3D問答任務僅包含正樣本，可能導緻模型記住固定的3D場景和問答對。為了解決這一問題，提出3DFQA，一個結合了負樣本和正樣本的場景級别的基于表達的QA任務，其增加了定位的要求。

建構負樣本時，從ScanQA中抽取問答對，并收集問題或答案中的相關物體，然後随機選擇一個缺少這些物體的3D場景。在原來的問題上，新增一個指令：「如果可以，請回答……并提供所有ID……」。

此時，模型必須回答「否」，并且不提供任何物體ID，展現其對場景的依賴而不會胡言亂語總給出正面回複。正樣本直接取自ScanQA，模型需回答問題并提供相關物體的ID作為答案的依據。

是以，訓練在的3DFQA資料集上的模型不能依靠記憶，而是要學會對正負樣本做出忠實回應并有理有據。

多樣化資料生成

多樣化資料旨在通過結合多種不同任務類型的指令資料，并提高指令的語言多樣性，進而增強模型的泛化能力。首先從基準資料集之外的不同任務中收集大規模資料。

具體而言，給定一個3D場景，收集以下任務的問答對：類别問答任務（來自Chat-Scene），Nr3D描述生成任務（轉換自Nr3D），外觀描述生成任務（來自Grounded-3DLLM），區域描述生成任務（來自Grounded-3DLLM），端到端3D視覺定位（轉換自Nr3D），端到端3D視覺定位（轉換自Sr3D+）。

圖5 多樣化資料的生成流程和詳細的提示工程

為了豐富表述風格，開發了一個可擴充的流程，利用ChatGPT的上下文學習能力對上述資料進行重述。這通過一組示例和結構化提示工程實作，如圖5（上）所示。

具體而言，給定一個收集的指令資料集D_task（其中任務包括ScanRefer、Multi3DRefer、Nr3D、Sr3D+、Nr3D Captioning、ScanQA、SQA3D、PF-3DVG和3DFQA），建構了一個系統提示P_system，以訓示重述的要求和結構化的輸出格式，同時提供一個示例提示P_eg，以幫助ChatGPT更好地了解要求。

還随機選擇一個溫度參數T（從[1.1, 1.2, 1.3]中選取）以增加輸出的随機性和多樣性。的重述輸出D_rephrase通過公式D_rephrase = M(P_system, P_eg, D_task, T)生成，其中M是ChatGPT的GPT-4o版本。

圖5（上）詳細說明了P_system和P_eg的内容，以ScanRefer資料為例。通過使用sentence=和rephrase=的結構化提示，GPT-4o能夠輕松遵循要求，可以通過檢測rephrase=關鍵字友善地收集輸出。

圖5（下）提供了每個任務的示例提示的詳細資訊。由于Nr3D Captioning源于Nr3D，PF-3DVG源于Sr3D+，而3DFQA源于ScanQA，是以不再為這些任務提供額外示例。

實驗

主要結果

表1 性能對比結果

如表1所示，由于RIG生成的魯棒指令資料，Robin3D在所有基準測試中顯著超越了之前的模型。具體而言，Robin3D在Scan2Cap [email protected]上帶來了6.9%的提升，在ScanRefer [email protected]上帶來了5.3%的提升。值得注意的是，在包含零目标案例的Multi3DRefer評估中，這些案例對模型的區分能力提出了挑戰，并要求模型能夠回答「No」。的Robin3D在[email protected]上實作了7.8%的提升，在[email protected]上實作了7.3%的提升。

消融實驗

表2和表3 消融實驗結果

如表2和表3所示，對提出的對抗性資料和多樣化資料進行了消融實驗，也對模型結構上RAP和IFB的提出做了消融實驗。實驗結果在所有benchmark上都證明了他們一緻的有效性。

特别的，在表2中，對抗性資料對描述生成任務Scan2Cap帶來了8.9%的提升，然而對抗性資料是不存在描述生成任務的，并且也不存在同源的資料（Scan2Cap資料源自ScanRefer, 但對抗性資料無源自ScanRefer的資料）。這種大幅的提升展現了對抗性資料對模型識别能力的提升。

參考資料：

https://arxiv.org/abs/2410.00255

百萬魯棒資料訓練，3D場景大語言模型新SOTA！IIT等釋出Robin3D

方法

關系增強投射器

ID-特征捆綁

魯棒指令資料生成引擎

對抗性資料生成

多樣化資料生成

實驗

主要結果

消融實驗

繼續閱讀

老行當｜做個木作小場景，回望當年供水站以及顫顫巍巍送水人

測繪通報 | 任萍：基于LOD1城市模型的噪聲資料可視化

華為全場景新品電博會大放異彩，再領科技新風尚

2024電博會|華為全場景新品大放異彩再領科技新風尚

金象山森林公園又有新場景新玩法！周末去耍！

終端AI分級标準落地，手機大模型“戰火”燒到了智能體

J Clin Invest丨楊偉莉/李世華/李曉江團隊利用猴模型揭示帕金森疾病新病理機制

2024電博會|華為全場景新品大放異彩再領科技新風尚

2024音樂綜藝市場趨勢觀察：新節目紛至沓來聚焦垂直賽道、複合場景

大模型訓練遭投毒損失千萬美元？Anthropic發現LLM代碼庫暗藏bug

全市近千名青少年齊聚中海博，在航海、航空、建築三大模型競賽中一展身手

DeepMind聯合MIT開發Fluid，讓自回歸模型實作文生圖的大規模擴充

上汽大通：場景化造車，匠心打造中國符号丨人民城市·五周年

AI周報 | 位元組跳動大模型訓練被“投毒”；微軟将終止中國個人Azure OpenAI服務

維他檸檬茶發起秋季營銷攻勢，聚焦火力瞄準這兩大場景

位元組跳動回應大模型訓練被實習生攻擊：已被辭退，不影響線上業務