大規模表格預訓練模型 SPACE-T

導讀本文将介紹達摩院在大規模表格預訓練模型 SPACE-T 上的實踐。

分享内容主要包括五部分：

1. 表格問答的背景及技術趨勢

2. 大規模表格預訓練模型 SPACE-T

3. SPACE-T @ ModelScope

4. SPACE @ ModelScope

5. 總結和展望

分享嘉賓｜黎槟華阿裡巴巴算法專家

編輯整理｜張少華信雅達科技

出品社群｜DataFun

表格問答的背景及技術趨勢

TableQA 和 Text2SQL 等相關模型技術，近些年在學術界受到了很大的關注。為什麼要關注表格問答或者 Text2SQL 這樣的内容？其實這有一個相關的背景，在具體的落地業務裡面，企業在做智能化過程中會面臨一個問題，對于企業裡面的相關知識文檔以及資料，以各種形态進行存放，比如表格等，這樣逐漸構成了企業資料庫和資料中台，進而衍生出 OA 等企業資訊化系統。但是如何從這些大規模的資料中得到一些企業的決策資訊或者達到降本增效的功能，這時候需要做各種知識圖譜、對話相關的智能系統，如：智能對話、智能 BI 分析。

各行業企業花費了大量資源搭建了企業的資料中台，支撐了企業資訊化系統。但是仍需要花費大量精力重頭梳理相關業務知識（知識圖譜流程、問答、對話等），才能建構起企業智能化系統。這樣就面臨一個挑戰：能否利用企業資料中台直接建構智能化系統？

對于企業來說，常見的一些文檔表格、網頁表格以及關系型資料庫都是二維的表資訊。如果能夠直接利用這些資料進行智能化系統建構，可以大幅度降低相關的成本。

表格問答技術（TableQA）利用模型将自然語言轉換為 SQL 查詢語言，允許使用者使用自然語言與表格知識直接互動并傳回直覺、流暢、忠實的結果。使用者通過語音或者文本進行提問，通過自然語言的了解最終形成相關的 SQL 語句，通過對話管理做狀态追蹤和政策優化，然後去查詢相關的知識庫及 API，根據得到的内容通過自然語言生成問題答案。上述的這個流程就是表格問答的核心鍊路。

表格問答常見的應用示例就是智能客服的對話，也是我們日常生活中會經常接觸到的一個案例。

Text-to-SQL 的目的是将一個自然語言問題轉換為相應的可執行結構語句（SQL），也是近幾年一個熱度持續升高的技術，并且榜單的争奪也非常激烈。技術發展也由最初的單表單輪發展到現在的表格預訓練模式。

學術模型落地到實際應用場景會有一些鴻溝，下面羅列了部分示例來說明各個場景的資料特點以及他們要實作的業務訴求。

概括來說,實作表格對話落地面臨的主要問題有四點：效果、成本、效率、語言。

以上内容主要介紹了表格對話的一些相關技術背景以及落地技術難點等，接下來我們介紹大規模表格預訓練模型 SPACE-T，通過這個模型來解答上面落地的一些問題。

大規模表格預訓練模型 SPACE-T

要實作大規模表格預訓練模型，需要至少兩方面的要求，首先需要有大規模的資料，其次要有預訓練相關的技術才能支撐我們去得到大模型預訓練模型。之後，我們可以使用模型強大的泛化能力來解決模型效果問題，如魯棒問題、效果問題、領域遷移問題等，這樣才能在實際業務中落地應用。

首先對于資料，阿裡雲對全行業進行了 17 個類别劃分，收集了億級表格。這為我們進行模型的預訓練提供了豐富的多行業資料，并且資料品質非常高，這樣訓練出來的表現效果相應也會很好。

對于模型部分，有兩個挑戰，第一就是标注的資料成本高，第二是業務場景表格知識獨立。如果按照之前的訓練模型，那麼這個模型隻能應用于某個領域。能否讓模型學會使用表格的知識，而非将表格的知識記憶在模型的參數裡，即将問題及表格的 Schema 相關的資料輸入到模型，将表格内容和問題做一些關聯，借助表格内容了解問題在問什麼，這樣的結果是學會了一種如何使用表格資訊的能力，非單一訓練資料應對的能力。這樣可以通過豐富的問題和表格形态使得模型有了非常好的開箱即用能力。因而在面對一個新的業務時候，對于從未見過的表格資料，模型可以了解表格和資料之間的關系，得到具體的 SQL。

綜上來說，SPACE-T 通過 Linking Loss 和 Schema Loss 學會如何了解将表格内容和問題，如何将這兩者映射輸出 SQL。這樣在實際中就可以解決上述模型遇到的兩個問題。

達摩院 TableQA 不光在預訓練模型上做了很多工作，同時對于下遊模型做了很多探索，并達到了領先。

SPACE-T 落地到阿裡雲智能客服後，做了很多領域的應用，如金融、政務、零售等。

阿裡雲智能客服的表格問答引擎大幅度降低了營運成本，通過将相關的表格資料轉換，再上傳綁定到通用模型上，一分鐘就可以建構問答，不需要标注訓練資料，一鍵訓練易上手。

阿裡雲智能客服的表格問答引擎的能力範圍從類型和支援的問法都比較廣泛。

前面主要講了 SPACE-T 模型本身的内容以及相關的落地能力。接下來主要講 SPACE 家族。

SPACE-T @ ModelScope

首先可以通過社群直接搜尋 SPACE-T 或者 SQL 找到預訓練模型。

同時可以線上體驗 SPACE-T 的能力。線上體驗内置了多個領域表格樣例，使用者可以直接點選更換體驗，開發者也可以用代碼加載自己的體驗。另外 SPACE-T 線上體驗内置了記憶體資料庫，使用者的問題轉換為 SQL，可以傳回 SQL 執行結果，開發者也可以通過代碼對接自己的資料庫。SPACE-T 輸出結構化的語句資訊，使用者可以根據需求轉換為可讀的 SQL、可執行 SQL 等。

下圖從體驗、開發到定制來闡述了如何使用 SPACE-T。體驗可以在社群站點直達模型，同時提供線上開發環境對 SPACE-T 等模型進行相關開發，最後模型開放了好多接口以滿足定制化要求。

SPACE @ ModelScope

SPACE-T 是 SPACE 家族中的一員，SPACE-T 主要提供大規模表格預訓練模型，還有其他如對話、文檔模型等，一起來賦能企業智能化相關内容。

以下以對話模型為例進行介紹。提出利用半監督預訓練，充分結合有标和無标對話資料進行訓練。

有監督就是采用有監督的資料進行大規模訓練，實際情況中，有标注的資料量其實有限，更多的是采用無監督的方式，通過大規模的無監督資料去做訓練，中間過程也包含半監督，高品質的有監督資料和大量的無監督資料以及目标明确的訓練，通過 Transfer Learing 得到的結果就是目前的 SPACE 對話模型的核心過程。

對話模型已經發展了一段時間。半監督預訓練，向預訓練對話模型中注入人類标注知識打造 SPACE 系列模型，并在 11 個不同國際對話資料集取得 SOTA。

SPACE-3 已經登陸 Modelscope 社群。目前已經開放了 4 種模型包括：對話生成模型、對話意圖識别、預訓練對話模型、對話狀态追蹤等。

在 SPACE 的 Readme 裡有了相關的代碼，直接複制代碼到環境中即可一鍵運作腳本，并複現最新的 SOTA 效果。

總結和展望

（1）表格是各行各業應用最普遍的結構化知識形态，利用表格作為知識直接建構智能化系統，能大幅降低建構成本；

（2）SPACE-T 由億級表格資料預訓練建構，具備良好的開箱即用能力，在 ModelScope、阿裡雲智能客服等多個産品中輸出，支撐了多領域的客戶；

3）在 ModelScope 上能夠直接擷取 SPACE-T 中文/英文的模型，可以直接線上體驗，也可以通過 Notebook、 git clone 到本地等方式進行開發和定制，建構自己應用；

4）SPACE-T 是 SPACE 模型家族的⼀員， ModelScope 上也可以擷取到 SPACE 模型家族的多個對話模型，建構自己的對話應用；

5）SPACE-T 模型仍在繼續疊代中，後續會持續完善模型效果、增加模型能力，敬請期待！

今天的分享就到這裡，謝謝大家。

▌2023資料智能創新與實踐大會

4大體系，專業解構資料智能
16個主題論壇，覆寫當下熱點與趨勢
70+演講，兼具創新與最佳實踐
1000+專業觀衆，内行人的技術盛會

第四屆DataFunCon資料智能創新與實踐大會将于⏰ 7月21-22日在北京召開，會議主題為新基建·新征程，聚焦資料智能四大體系：資料架構、資料效能、算法創新、智能應用。在這裡，你将領略到資料智能技術實踐最前沿的景觀。

歡迎大家點選下方連結擷取大會門票～

DataFunCon2023（北京站）：資料智能創新與實踐大會 �-�百格活動

大規模表格預訓練模型 SPACE-T

繼續閱讀

基于注意力機制和殘差網絡的視訊行為識别研究有何進展？在衆多視訊行為識别模型中，雙流法無法實作端到端的識别，利用C3D訓

百度釋出全新語言生成預訓練模型ERNIE-GEN

Transformer 與 Attention的一些TrickTransformer 與 Attention的一些Trick

Transform和LSTM是兩種常見的神經網絡模型，它們在處理序列資料方面都有着很好的表現。本文将從模型結構、應用場景

探索OpenLLMLeaderboard中的有趣問題：LLaMA模型的MMLU評估數字為什麼那麼低？最近在Twitter

#行業觀察【ChatGPT洞察和未來資料商機】-為何堅持寫原創，比AI薅羊毛更有價值？【一】緣由正如某社交群中，大家讨論

swintransformer花類識别系統。大家好，今天給大家介紹的是swintransform的圖像分類識别系統。然後

基于遷移學習的松散礫石路面分類前言：礫石路連接配接着人口稀少的地區，為農業和林業産品提供了通道。在交通量較低的地方，也考慮使

目前在國内大規模企業分為三類，其中包括網際網路企業、人工智能企業和初創研究企業。在目前這個時代，人工智能和大模型有些相似，

Transformer模型最開始是使用在NLP自然語言處理的模型，但是注意力機制越來越火🔥，且注意力機制跟人進行學習的方

關注數字技術大國競争！在人工智能這塊制高點上，決勝的關鍵在于這個要素。但很遺憾，目前美國這個資料是中國的2.6倍！大國産

NLP學習—24.Pre-trained Word Embedding—ELMO、GPT、Bert

預訓練模型（1）---- ELMO&GPT&Bert

GPT和BERT優缺點比較

GPT模型GPT模型

《論文閱讀》SAPBERT: Speaker-Aware Pretrained BERT for Emotion Recognition in Conversation