大规模表格预训练模型 SPACE-T

导读本文将介绍达摩院在大规模表格预训练模型 SPACE-T 上的实践。

分享内容主要包括五部分：

1. 表格问答的背景及技术趋势

2. 大规模表格预训练模型 SPACE-T

3. SPACE-T @ ModelScope

4. SPACE @ ModelScope

5. 总结和展望

分享嘉宾｜黎槟华阿里巴巴算法专家

编辑整理｜张少华信雅达科技

出品社区｜DataFun

表格问答的背景及技术趋势

TableQA 和 Text2SQL 等相关模型技术，近些年在学术界受到了很大的关注。为什么要关注表格问答或者 Text2SQL 这样的内容？其实这有一个相关的背景，在具体的落地业务里面，企业在做智能化过程中会面临一个问题，对于企业里面的相关知识文档以及数据，以各种形态进行存放，比如表格等，这样逐步构成了企业数据库和数据中台，从而衍生出 OA 等企业信息化系统。但是如何从这些大规模的数据中得到一些企业的决策信息或者达到降本增效的功能，这时候需要做各种知识图谱、对话相关的智能系统，如：智能对话、智能 BI 分析。

各行业企业花费了大量资源搭建了企业的数据中台，支撑了企业信息化系统。但是仍需要花费大量精力重头梳理相关业务知识（知识图谱流程、问答、对话等），才能构建起企业智能化系统。这样就面临一个挑战：能否利用企业数据中台直接构建智能化系统？

对于企业来说，常见的一些文档表格、网页表格以及关系型数据库都是二维的表信息。如果能够直接利用这些数据进行智能化系统构建，可以大幅度降低相关的成本。

表格问答技术（TableQA）利用模型将自然语言转换为 SQL 查询语言，允许用户使用自然语言与表格知识直接交互并返回直观、流畅、忠实的结果。用户通过语音或者文本进行提问，通过自然语言的理解最终形成相关的 SQL 语句，通过对话管理做状态追踪和策略优化，然后去查询相关的知识库及 API，根据得到的内容通过自然语言生成问题答案。上述的这个流程就是表格问答的核心链路。

表格问答常见的应用示例就是智能客服的对话，也是我们日常生活中会经常接触到的一个案例。

Text-to-SQL 的目的是将一个自然语言问题转换为相应的可执行结构语句（SQL），也是近几年一个热度持续升高的技术，并且榜单的争夺也非常激烈。技术发展也由最初的单表单轮发展到现在的表格预训练模式。

学术模型落地到实际应用场景会有一些鸿沟，下面罗列了部分示例来说明各个场景的数据特点以及他们要实现的业务诉求。

概括来说,实现表格对话落地面临的主要问题有四点：效果、成本、效率、语言。

以上内容主要介绍了表格对话的一些相关技术背景以及落地技术难点等，接下来我们介绍大规模表格预训练模型 SPACE-T，通过这个模型来解答上面落地的一些问题。

大规模表格预训练模型 SPACE-T

要实现大规模表格预训练模型，需要至少两方面的要求，首先需要有大规模的数据，其次要有预训练相关的技术才能支撑我们去得到大模型预训练模型。之后，我们可以使用模型强大的泛化能力来解决模型效果问题，如鲁棒问题、效果问题、领域迁移问题等，这样才能在实际业务中落地应用。

首先对于数据，阿里云对全行业进行了 17 个类别划分，收集了亿级表格。这为我们进行模型的预训练提供了丰富的多行业数据，并且数据质量非常高，这样训练出来的表现效果相应也会很好。

对于模型部分，有两个挑战，第一就是标注的数据成本高，第二是业务场景表格知识独立。如果按照之前的训练模型，那么这个模型只能应用于某个领域。能否让模型学会使用表格的知识，而非将表格的知识记忆在模型的参数里，即将问题及表格的 Schema 相关的数据输入到模型，将表格内容和问题做一些关联，借助表格内容理解问题在问什么，这样的结果是学会了一种如何使用表格信息的能力，非单一训练数据应对的能力。这样可以通过丰富的问题和表格形态使得模型有了非常好的开箱即用能力。因而在面对一个新的业务时候，对于从未见过的表格数据，模型可以理解表格和数据之间的关系，得到具体的 SQL。

综上来说，SPACE-T 通过 Linking Loss 和 Schema Loss 学会如何理解将表格内容和问题，如何将这两者映射输出 SQL。这样在实际中就可以解决上述模型遇到的两个问题。

达摩院 TableQA 不光在预训练模型上做了很多工作，同时对于下游模型做了很多探索，并达到了领先。

SPACE-T 落地到阿里云智能客服后，做了很多领域的应用，如金融、政务、零售等。

阿里云智能客服的表格问答引擎大幅度降低了运营成本，通过将相关的表格数据转换，再上传绑定到通用模型上，一分钟就可以构建问答，不需要标注训练数据，一键训练易上手。

阿里云智能客服的表格问答引擎的能力范围从类型和支持的问法都比较广泛。

前面主要讲了 SPACE-T 模型本身的内容以及相关的落地能力。接下来主要讲 SPACE 家族。

SPACE-T @ ModelScope

首先可以通过社区直接搜索 SPACE-T 或者 SQL 找到预训练模型。

同时可以在线体验 SPACE-T 的能力。在线体验内置了多个领域表格样例，用户可以直接点击更换体验，开发者也可以用代码加载自己的体验。另外 SPACE-T 在线体验内置了内存数据库，用户的问题转换为 SQL，可以返回 SQL 执行结果，开发者也可以通过代码对接自己的数据库。SPACE-T 输出结构化的语句信息，用户可以根据需求转换为可读的 SQL、可执行 SQL 等。

下图从体验、开发到定制来阐述了如何使用 SPACE-T。体验可以在社区站点直达模型，同时提供在线开发环境对 SPACE-T 等模型进行相关开发，最后模型开放了好多接口以满足定制化要求。

SPACE @ ModelScope

SPACE-T 是 SPACE 家族中的一员，SPACE-T 主要提供大规模表格预训练模型，还有其他如对话、文档模型等，一起来赋能企业智能化相关内容。

以下以对话模型为例进行介绍。提出利用半监督预训练，充分结合有标和无标对话数据进行训练。

有监督就是采用有监督的数据进行大规模训练，实际情况中，有标注的数据量其实有限，更多的是采用无监督的方式，通过大规模的无监督数据去做训练，中间过程也包含半监督，高质量的有监督数据和大量的无监督数据以及目标明确的训练，通过 Transfer Learing 得到的结果就是目前的 SPACE 对话模型的核心过程。

对话模型已经发展了一段时间。半监督预训练，向预训练对话模型中注入人类标注知识打造 SPACE 系列模型，并在 11 个不同国际对话数据集取得 SOTA。

SPACE-3 已经登陆 Modelscope 社区。目前已经开放了 4 种模型包括：对话生成模型、对话意图识别、预训练对话模型、对话状态追踪等。

在 SPACE 的 Readme 里有了相关的代码，直接复制代码到环境中即可一键运行脚本，并复现最新的 SOTA 效果。

总结和展望

（1）表格是各行各业应用最普遍的结构化知识形态，利用表格作为知识直接构建智能化系统，能大幅降低构建成本；

（2）SPACE-T 由亿级表格数据预训练构建，具备良好的开箱即用能力，在 ModelScope、阿里云智能客服等多个产品中输出，支撑了多领域的客户；

3）在 ModelScope 上能够直接获取 SPACE-T 中文/英文的模型，可以直接在线体验，也可以通过 Notebook、 git clone 到本地等方式进行开发和定制，构建自己应用；

4）SPACE-T 是 SPACE 模型家族的⼀员， ModelScope 上也可以获取到 SPACE 模型家族的多个对话模型，构建自己的对话应用；

5）SPACE-T 模型仍在继续迭代中，后续会持续完善模型效果、增加模型能力，敬请期待！

今天的分享就到这里，谢谢大家。

▌2023数据智能创新与实践大会

4大体系，专业解构数据智能
16个主题论坛，覆盖当下热点与趋势
70+演讲，兼具创新与最佳实践
1000+专业观众，内行人的技术盛会

第四届DataFunCon数据智能创新与实践大会将于⏰ 7月21-22日在北京召开，会议主题为新基建·新征程，聚焦数据智能四大体系：数据架构、数据效能、算法创新、智能应用。在这里，你将领略到数据智能技术实践最前沿的景观。

欢迎大家点击下方链接获取大会门票～

DataFunCon2023（北京站）：数据智能创新与实践大会 �-�百格活动

大规模表格预训练模型 SPACE-T

继续阅读

基于注意力机制和残差网络的视频行为识别研究有何进展？在众多视频行为识别模型中，双流法无法实现端到端的识别，利用C3D训

百度发布全新语言生成预训练模型ERNIE-GEN

Transformer 与 Attention的一些TrickTransformer 与 Attention的一些Trick

Transform和LSTM是两种常见的神经网络模型，它们在处理序列数据方面都有着很好的表现。本文将从模型结构、应用场景

探索OpenLLMLeaderboard中的有趣问题：LLaMA模型的MMLU评估数字为什么那么低？最近在Twitter

#行业观察【ChatGPT洞察和未来数据商机】-为何坚持写原创，比AI薅羊毛更有价值？【一】缘由正如某社交群中，大家讨论

swintransformer花类识别系统。大家好，今天给大家介绍的是swintransform的图像分类识别系统。然后

基于迁移学习的松散砾石路面分类前言：砾石路连接着人口稀少的地区，为农业和林业产品提供了通道。在交通量较低的地方，也考虑使

目前在国内大规模企业分为三类，其中包括互联网企业、人工智能企业和初创研究企业。在目前这个时代，人工智能和大模型有些相似，

Transformer模型最开始是使用在NLP自然语言处理的模型，但是注意力机制越来越火🔥，且注意力机制跟人进行学习的方

关注数字技术大国竞争！在人工智能这块制高点上，决胜的关键在于这个要素。但很遗憾，目前美国这个数据是中国的2.6倍！大国产

NLP学习—24.Pre-trained Word Embedding—ELMO、GPT、Bert

预训练模型（1）---- ELMO&GPT&Bert

GPT和BERT优缺点比较

GPT模型GPT模型

《论文阅读》SAPBERT: Speaker-Aware Pretrained BERT for Emotion Recognition in Conversation