AAAI 2023 | 基于T5的兩階段的多任務Text-to-SQL預訓練模型MIGA

機器之心專欄

作者：網易互娛 AI Lab

網易互娛 AI Lab 聯合廣東外語外貿大學和哥倫比亞大學基于預訓練語言模型 T5 的預訓練方式，提出了兩階段的多任務預訓練模型 MIGA。

越來越多的工作證明了預訓練語言模型（PLM）中蘊含着豐富的知識，針對不同的任務，用合适的訓練方式來撬動 PLM，能更好地提升模型的能力。在 Text-to-SQL 任務中，目前主流的生成器是基于文法樹的，需要針對 SQL 文法進行設計。

近期，網易互娛 AI Lab 聯合廣東外語外貿大學和哥倫比亞大學基于預訓練語言模型 T5 的預訓練方式，提出了兩階段的多任務預訓練模型 MIGA。MIGA 在預訓練階段引入三個輔助任務，并将他們組織成統一的生成任務範式，可以将所有的 Text-to-SQL 資料集統一進行訓練；同時在微調階段，MIGA 針對多輪對話中的錯誤傳遞問題進行 SQL 擾動，提升了模型生成的魯棒性。

目前對于 Text-to-SQL 的研究，主流的方法主要是基于 SQL 文法樹的 encoder-decoder 模型，可以確定生成的結果一定符合 SQL 文法，但是需要針對 SQL 文法進行特殊設計。最近也有一些關于 Text-to-SQL 的研究是基于生成式語言模型，可以很友善地繼承預訓練語言模型的知識和能力。

為了降低對基于文法樹的依賴，更好地挖掘預訓練語言模型的能力，該研究在預訓練 T5 模型的架構下，提出了一個兩階段的多任務 Text-to-SQL 預訓練模型 MIGA (MultI-task Generation frAmework)。

MIGA 分為兩階段的訓練過程：

在預訓練階段，MIGA 使用與 T5 相同的預訓練範式，額外提出了三個與 Text-to-SQL 相關的輔助任務，進而更好地激發預訓練語言模型中的知識。該訓練方式可以将所有的 Text-to-SQL 的資料集進行統一，擴充了訓練資料的規模；而且也可以靈活地去設計更多有效的輔助任務，進一步發掘預訓練語言模型的潛在知識。
在微調階段，MIGA 針對多輪對話和 SQL 中容易存在的錯誤傳遞問題，在訓練過程中對曆史 SQL 進行擾動，使得生成目前輪次的 SQL 效果更加穩定。

MIGA 模型在兩個多輪對話 Text-to-SQL 公開資料集上表現優于目前最好的基于文法樹的模型，相關研究已經被 AAAI 2023 錄用。

AAAI 2023 | 基于T5的兩階段的多任務Text-to-SQL預訓練模型MIGA

論文位址：https://arxiv.org/abs/2212.09278

MIGA 模型細節

圖 1 MIGA 模型圖。

多任務預訓練階段

該研究主要參考 T5 的預訓練方式，基于已經訓練好的 T5 模型，設計了四個預訓練任務：

Text-to-SQL 主任務：上圖中的黃色部分，通過設計 Prompt 為”translate dialogue to system query”，然後以一些 special tokens 來将曆史對話、資料庫資訊和 SQL 語句拼接輸入到 T5-encoder 中，讓 decoder 直接輸出對應的 SQL 語句；
相關資訊預測：上圖中的綠色部分，設計 Prompt 為”translate dialogue to relevant column”，T5-encoder 的輸入也是與主任務一緻，decoder 則需要輸出與目前問題相關的資料表和列，目的是加強模型對 Text-to-SQL 的了解；
目前輪次的操作預測：上圖中的灰色部分，設計 Prompt 為”translate dialogue to turn switch”，這個任務主要是針對多輪對話中的上下文了解進行設計，對比上一輪的對話和 SQL，decoder 需要輸出目前對話的目的做了哪些變化，比如圖中例子是 where 條件進行了改動；
最終對話預測：上圖中的藍色部分，設計 Prompt 為”translate dialogue to final utterance”，目的是為了讓模型去更好的了解上下文對話，需要 decoder 輸出整個多輪對話下來，最後時刻的 SQL 對應的一句完整問題描述。

通過這樣的一個統一的訓練方式設計，MIGA 可以通用而又靈活地去處理更多與任務相關的額外任務，而且還有一下優點：

參考人類編寫 SQL 的步驟，對話文本到 SQL 任務被分解為多個子任務，允許主任務從中學習；
訓練樣本的構造格式與 T5 一緻，可以最大限度地發揮預訓練 T5 模型對目标任務的潛力；
統一的架構允許多個輔助任務的靈活排程。當應用于特定任務時，僅需在特定任務的标記資料中使用相同的訓練目标對上面的預訓練模型進行微調即可。

在預訓練階段，該研究整合了 Text-to-SQL 資料集 Spider 和對話 Text-to-SQL 資料集 SparC 和 CoSQL 的資料來訓練 T5 模型。

微調階段

在預訓練階段之後，該研究針對目标任務的标注資料，單純使用 Text-to-SQL 任務來進一步微調模型。該研究在預測目前輪次的 SQL 時，會拼接之前輪次的預測 SQL，在此過程中，為了盡量克服多輪對話和生成中所帶來的錯誤傳遞問題，該研究提出了 SQL 擾動的方案，對輸入資料中的曆史輪次 SQL，以 α 機率來進行擾動。SQL 語句的擾動主要以 β 的機率采樣相應的 token，然後進行以下其一的擾動：

用相同資料表中的列，來随機修改或者新增 SELECT 部分中的列；
随機修改 JOIN 條件中的結構，比如交換兩個表的位置；
修改”*” 所有列為一些其他的列；
交換”asc” 和”desc”。

上述的擾動是該研究在實驗中統計發現最常見的一些錯誤傳遞導緻的 SQL 生成錯誤情況，是以針對這些情況來進行擾動，降低模型關于這方面的依賴。

實驗評估

評估資料集為多輪對話 Text-to-SQL：SparC 和 CoSQL。

評估名額為：

QM：Question Match，表示單輪問題中的生成的 SQL 與标注輸出完全比對的比例；
IM：Interaction Match，表示多輪對話中整個完整輪次所有生成的 SQL 與标注輸出完全比對的比例。

在表 1 的對比實驗中，MIGA 在兩個資料集上的 IM 分數，以及 CoSQL 的 QM 分數上，超過了目前最好的多輪對話 Text-to-SQL 模型。而且對比同類型的基于 T5 的方案，MIGA 分别在 IM 上提升了 7.0% 和 QM 上提升了 5.8%。

表 1 對比實驗分析，第一部分為樹模型，第二部分為基于預訓練生成模型。

在表 2 的消融實驗中，該研究對 MIGA 的兩階段訓練過程中的幾個任務進行了探索，同時證明了這些任務分别都會對目标任務有不同程度的提升。

表 2 針對 SparC 任務，分别去除各項任務或資料，在名額上都有所降低。

在實際的案例分析結果，MIGA 在生成的穩定性和正确性，對比基于 T5-3B 訓練模型更好，可以看到 MIGA 在多表連接配接操作和列和表格的映射上要優于其他模型。在 Case#1 的 Question#2 中，T5-3B 模型不能為相對複雜的 JOIN 結構（兩表連接配接）生成有效的 SQL，進而導緻 Question#3 中更複雜的 JOIN 結構（三表連接配接）也預測錯誤。而 MIGA 準确地預測了 JOIN 結構，并較好地維持了之前的條件 t1.sex="f"。在 Case#2 中，T5- 3B 混淆了不同表中的多個列，并将 earnings 誤認為是 people 表的列，而 MIGA 可以正确識别該列屬于 poker_player 表，并将其連結至 t1。

表 3 案例分析。

結語

網易互娛 AI Lab 針對 Text-to-SQL 提出了一個基于 T5 的兩階段的多任務預訓練模型：MIGA。在預訓練階段，MIGA 将 Text-to-SQL 任務分解出了額外三個子任務，并将其統一為序列到序列的生成範式，進而更好地激發預訓練 T5 模型。并且在微調階段引入了 SQL 擾動機制，降低多輪 Text-to-SQL 生成場景下的錯誤傳遞帶來的影響。

未來，研究團隊會進一步探索更多有效的政策來撬動超大語言模型的能力，并且探索更優雅更有效的方式來進一步克服因為錯誤傳遞而導緻的效果降低問題。

AAAI 2023 | 基于T5的兩階段的多任務Text-to-SQL預訓練模型MIGA

繼續閱讀

百度釋出全新語言生成預訓練模型ERNIE-GEN

AAAI 2023 | 小鵬汽車紐約石溪：在末層激活上作對抗訓練的域自适應一、本文方法二、方法分析三、實驗四、分析五、結論

Transformer 與 Attention的一些TrickTransformer 與 Attention的一些Trick

Transform和LSTM是兩種常見的神經網絡模型，它們在處理序列資料方面都有着很好的表現。本文将從模型結構、應用場景

探索OpenLLMLeaderboard中的有趣問題：LLaMA模型的MMLU評估數字為什麼那麼低？最近在Twitter

#行業觀察【ChatGPT洞察和未來資料商機】-為何堅持寫原創，比AI薅羊毛更有價值？【一】緣由正如某社交群中，大家讨論

swintransformer花類識别系統。大家好，今天給大家介紹的是swintransform的圖像分類識别系統。然後

基于遷移學習的松散礫石路面分類前言：礫石路連接配接着人口稀少的地區，為農業和林業産品提供了通道。在交通量較低的地方，也考慮使

目前在國内大規模企業分為三類，其中包括網際網路企業、人工智能企業和初創研究企業。在目前這個時代，人工智能和大模型有些相似，

Transformer模型最開始是使用在NLP自然語言處理的模型，但是注意力機制越來越火🔥，且注意力機制跟人進行學習的方

關注數字技術大國競争！在人工智能這塊制高點上，決勝的關鍵在于這個要素。但很遺憾，目前美國這個資料是中國的2.6倍！大國産

NLP學習—24.Pre-trained Word Embedding—ELMO、GPT、Bert

預訓練模型（1）---- ELMO&GPT&Bert

GPT和BERT優缺點比較

GPT模型GPT模型

《論文閱讀》SAPBERT: Speaker-Aware Pretrained BERT for Emotion Recognition in Conversation