2024年第5期
专题研究一 大语言模型
作者简介
李绅
北京师范大学在读博士研究生,主要研究方向为计算语言学和数字人文
胡韧奋
北京师范大学副教授,主要研究方向为计算语言学和数字人文
王立军
北京师范大学教授,主要研究方向为汉字学、训诂学和词汇语义学
古汉语大语言模型的构建及应用研究
李 绅1,胡韧奋2,王立军1
(1.北京师范大学 文学院 北京 100875;2.北京师范大学 国际中文教育学院 北京 100875)
提 要 通用大语言模型在古汉语语言信息处理任务上的效果往往不够理想,因此,我们从领域知识学习需求出发,针对古汉语信息处理任务“低资源”“富知识”的特点,从头构建了专门适用于古代汉语理解与生成的大语言模型“AI太炎”。通过合理的模型设计、数据处理、基座训练及微调,仅使用1.8B参数量即可取得较好效果。该模型具有较强的古典文献释读能力,支持句读标点、典故识别、词义解释及文白翻译等多种具有挑战性的文言文理解任务,兼容简体字和繁体字文本。实验显示,与大型通用模型和其他领域模型相比,“AI太炎”在多项古汉语信息处理关键任务上表现出明显优势,且达到了接近或超过人类基线的水平。此外,在辅助古籍整理、辞书编纂和语言研究等方面,该模型也表现出了很大的应用潜力。
关键词 大语言模型;古汉语信息处理;人工智能
一、引言
近年来,以GPT‒4(OpenAI 2023)、LLAMA2(Touvron et al. 2023)为代表的通用大语言模型受到学界和公众的广泛关注(Zhao et al. 2023)。然而,通用大语言模型主要面向大众用户设计和研发,其训练语料多来自互联网公开数据,其中包含的专业知识相对有限。例如,互联网中的中文数据,主要来自新闻网站、论坛等,这些数据几乎均为现代汉语表述,这无疑限制了模型对古汉语的理解和处理能力。
古汉语作为中华文化的传承载体,其文本蕴含着丰富的语言文化知识。由于文言表达绵延千年,其文字、词汇、语法、语音系统不断发展,每个时期都产生了复杂的语言现象,给后人的阅读理解带来了诸多障碍。除了语言层面的问题,对古汉语文本的理解还需依赖文本之外的历史文化常识——古人对人、事的指称常有多种变体,且表述追求含蓄蕴藉,常化用典故表达情感或思想。语言与文化的双重挑战,不仅给现代人学习和阅读文言文带来了困难,也是当前大陆古籍整理工作和古汉语信息处理研究中的重难点所在。
为了更好地辅助古籍整理、文言文教学和数字人文研究工作,我们构建了一个专门适用于古汉语信息处理的大语言模型“AI太炎”。本文将从模型设计、数据处理、基座训练及微调等方面介绍该模型的构建方法,并结合案例探讨其在古籍整理、辞书编纂、语言研究等领域的应用。
二、相关研究进展
(一)古汉语信息处理技术研究
近年来,面向古籍整理出版、文言文教学及数字人文研究的现实需求,古汉语信息处理技术研究日趋深入,涉及句读标点、分词与词性标注、命名实体识别与关系抽取、词义识别、文白翻译等众多任务。
由于古籍文本一般不使用标点符号,因此古籍整理过程中的一项重要工作是句读标点。据胡韧奋等(2021)统计,现有的古籍数据中,大部分尚未实现句读,如殆知阁古代文献藏书2.0版语料库规模约33亿字,其中仅25%左右的数据包含标点,可见古籍整理是一项浩大的工程,自动句读技术有强烈的现实需求。为了解决这一问题,研究者采用传统机器学习模型(张开旭,等2009)、神经网络模型(王博立,等2017)、预训练语言模型(俞敬松,等2019;胡韧奋,等2021;袁义国,等2022)等方法取得了较好效果。
如需利用计算机技术对大规模古籍文献进行词汇粒度研究,往往涉及古汉语分词、词性标注、命名实体识别、词义消歧等基础性的中文信息处理任务。古汉语分词经历了基于规则匹配的方法(邱冰,皇甫娟2008)、基于统计的方法(梁社会,陈小荷2013)以及基于机器学习与深度学习模型的方法(黄水清,等2015;程宁,等2020;Tang & Su 2022)3个发展阶段。词性标注和命名实体识别与其研究范式相近。为了实现词义层面分析,舒蕾等(2022)构建了百万字规模的古汉语词义标注语料库,并利用预训练古汉语语言模型构建了词义消歧算法。
文白翻译(文言文‒白话文翻译)是结合了古汉语诸多理解难点的综合性任务,同时具有辅助现代人阅读和学习文言文的突出现实需求。Liu et al.(2019)构建了基于Transformer模型的文白翻译系统。Guo et al.(2023)进一步提出利用双音节词对齐和双掩码Transformer的文白翻译模型,实现了超过Liu et al.(2019)模型的效果。
综上可以看出,神经网络模型及预训练语言模型方法在古汉语信息处理领域得到了较为广泛的应用。然而,这些方法对训练数据规模和质量的要求较高。在古汉语信息处理场景中,很多任务具有“低资源”“富知识”的特点,这为相应的语言资源建设和模型研究带来了很大挑战。已有研究发现,采用数据增广、联合学习等机制能够较好地缓解上述问题(李绅,等2023),而大语言模型的多任务、小样本学习等能力十分突出,因此,构建专门的古汉语大语言模型具有提升古汉语信息处理综合能力的潜力。
(二)专门领域大语言模型构建研究
为增强大语言模型的领域知识理解能力,检索增强生成(Retrieval-augmented Generation,RAG)和领域模型构建等方法应运而生。其中,检索增强生成无须调整模型参数,主要采用向量检索匹配的方法从外部知识库或数据库中获取与当前问题有关的领域知识,然后将当前问题与检索得到的结果组合后输入大语言模型,令其在参考外部知识的前提下回答问题(Gao et al. 2023)。与检索增强生成相比,构建专门领域的大语言模型能够更为系统地学习领域知识,从而为垂直领域应用提供服务,例如司法领域大语言模型ChatLaw(Cui et al. 2023)、医疗领域大语言模型medGPT[1]、科技文献领域大语言模型“墨子”[2]等。在古汉语领域,也有“荀子”[3]、“九思”等大语言模型,旨在实现古籍文献的分析处理。然而,上述专业领域大语言模型主要是通过对LLaMA、Qwen、Baichuan等开源的通用领域大语言模型继续训练或微调得到。Taylor et al.(2022)和Lehman et al.(2023)指出,对于专业领域的任务来说,使用专业领域数据训练的模型通常表现更好。因此,本研究旨在从头构建专门的古汉语大语言模型“AI太炎”,使其可以较为充分地编码古代汉语和文化知识。
[1] 参见:https://medgpt.co。
[2] 参见:https://github.com/gmftbyGMFTBY/science-llm。
[3] 参见:https://github.com/Xunzi-LLM-of-Chinese-classics/XunziALLM。
三、“AI太炎”的设计
(一)模型结构
参考最新的大语言模型架构,我们以Transformer模型为基础,使用SwiGLU激活函数(Shazeer 2020),并采用ALiBi位置编码(Press et al. 2021)以应对长文本的处理。为加速训练过程,我们引入了Flash Attention机制(Dao 2022)。在模型参数量方面,主流开源的大语言模型多采用6~7B、13~14B、70B等设定。考虑到古汉语大语言模型旨在编码专门领域知识,相应的训练数据规模远远小于通用的英文和现代汉语任务,模型大小需要和数据规模相匹配,我们参照Hoffmann et al.(2022)提出的模型最优结构组合曲线,将模型设计为52层(blocks),共1.8B(18亿)参数。近期,多项研究工作表明,经过合理的设计和训练,小型大语言模型能够兼顾效率和效果的平衡,如Gemma(2B)[4]、MiniCPM(2.4B)[5]等。
[4] 参见:https://ai.google.dev/gemma。
[5] 参见:https://github.com/OpenBMB/MiniCPM。
(二)预训练任务与数据
大语言模型的训练通常包括两个阶段:一是预训练阶段,主要利用大规模无标注文本训练基座语言模型,使模型具有较好的基础语言能力;二是有监督微调阶段,需基于大量有标注数据引导模型学习特定领域知识,完成多项具体任务。
在预训练阶段,模型主要通过预测下一个词的任务来学习基础语言知识。大语言模型属于机器学习模型,即模型的参数权重大小是基于对训练数据的拟合而得到的,训练数据的规模、质量和多样性对模型的语言能力具有决定性影响。虽然古汉语大语言模型重在对古代汉语的理解和生成,但是其输出结果多服务于当代人的阅读,比如文白翻译任务需将古代文言文翻译成现代白话文,因此基座语言模型需要兼具古代和现代汉语表达能力。此外,在古汉语信息处理技术的现实应用中,简体字和繁体字文本均有相应需求。为此,在“AI太炎”的预训练阶段,我们采集了约250亿字的高质量现代汉语文本和35亿字的古代汉语文本作为预训练语料,简体字和繁体字文本均占有一定比例。其中,现代汉语文本包括互联网上的新闻、百科、论坛等数据[6],古代汉语文本涵盖了古诗词、散文、小说等众多体裁[7]。
[6] 参见:https://github.com/Embedding/Chinese-Word-Vectors。
[7] 参见:https://github.com/garychowcmu/daizhigev20。
(三)有监督微调任务与数据
在有监督微调阶段,我们希望“AI太炎”能够聚焦领域知识,解决领域问题,因此其不必在通用大语言模型擅长的聊天会话、开放域问答等任务上进行专门学习,而应该重点关注古汉语理解的难点。因此,在设计有监督微调任务时,主要遵循以下两条原则:第一,所选择的任务应能够覆盖字、词、句、段等不同层级的语言知识,且能够引导模型学习古代典籍中的经典文化常识;第二,针对各任务,能够采集到高质量且较大规模的标注数据。据此,我们设计了4项微调任务:句读标点、典故识别、词语释义和文白翻译。具体示例见表1。
通过搜集并改写原始数据,我们共采集到约30亿字可供有监督微调的训练数据,其中句读标点任务约15亿字,词语释义任务约6亿字,典故识别任务约0.5亿字,文白翻译任务约8亿字。
(四)模型训练
Tang et al.(2024)指出,对数据的重复使用有助于提升语言模型的训练效果,因此,我们在训练“AI太炎”时对数据进行了一定的重复采样。依据Hoffmann et al.(2022)的经验曲线,给定1.8B参数量的模型,我们将其在预训练数据上训练了1000亿字符,然后在有监督数据上继续微调训练了250亿字符。模型的最大学习速率设为1e-4,之后以余弦的方式衰减(Loshchilov & Hutter 2016)。
四、“AI太炎”的评测结果
本文针对4项古汉语信息处理关键任务展开了开放评测。为了确保评测结果公平、客观,所有评测集数据均采自中华经典古籍库[8]等互联网未开源的资源库,以确保模型在预训练和微调阶段均未见过测试数据。除了评测“AI太炎”外,针对各项任务,我们还分别引入多个已有模型及文史专业研究生作答结果作为对比基线。在通用大语言模型方面,我们选择在各项通用评测中均表现优秀的GPT–4模型[9],在4项任务上均对其进行了测试。在领域模型方面,我们引入基于通用开源模型微调得到的古汉语大语言模型“荀子”(Xunzi-Qwen-7B-CHAT),根据其说明文档,在句读标点和文白翻译任务上对其进行了评测。此外,在文白翻译任务上,还引入百度翻译中的“中文(文言文)‒中文(简体)”文白机器翻译系统[10]作为对比。最后,我们邀请多位文史专业研究生参与典故识别、词语释义和文白翻译的人工评测。接下来,本节将对各项任务的具体评测方式和结果进行介绍。
[8] 中华经典古籍库收录了高质量的古籍整理出版成果,且具有严格的反爬虫、反复制机制,因此非常适合作为模型测试数据。参见:https://publish.ancientbooks.cn/docShuju/platform.jspx。
[9] GPT‒4处理结果采用OpenAI API调用方式获取,模型版本为gpt‒4‒1106‒preview,实验中设置temperature参数为0,以确保模型输出结果的一致性和稳定性。
[10] 百度文白翻译通过其翻译API获取处理结果。参见:https://api.fanyi.baidu.com/doc/21。
(一)句读标点任务
对于句读标点任务,我们从中华经典古籍库中随机选取200段经点校的古籍文本作为测试数据,并用F1值[11]来评测各模型的表现,结果如表2所示。值得注意的是,现有大语言模型的一个突出问题是添加标点时无法根据原文准确输出,常见改字、丢字和增字现象,无论如何编写提示词,依然存在此问题。在“荀子”的输出结果中,20.5%的样本会出现原文错误,而GPT‒4输出的样本也有11%会出现原文错误。与之相较,“AI太炎”在解码过程中针对句读标点任务进行了优化,即限制模型输出结果仅包括原文词表和标点符号,因此完全避免了输出错误原文的问题。
[11] 标点F1指的是对“,。!?;:、”匹配的结果,而断句F1则无须关注标点符号的类型。
为了更好地评测标点效果,我们在计算“荀子”和GPT‒4的标点效果时排除了输出有误的样本,仅看其正常标点的效果[12]。如表2所示,在断句和标点任务上,“AI太炎”具有明显优势,尤其是断句任务的F1值接近97%,达到了较为实用的水平。
[12] “荀子”和GPT‒4的断句标点F1值基于正确输出样本计算,即忽略了输出文本有误的样本。实际上,在真实使用中还需要考虑文本错误率的影响,也就是说其真实的断句标点F1值会更低。
(二)典故识别任务
本文采用莫凯洁等(2024)构建的数据集和评测方法,对各模型进行了用典判断和具体典故识别评测。其中,用典判断为二分类任务,即判断给定文本是否用典,以准确率为评价指标;具体典故识别为多标签、多分类任务,即判断给定文本使用了哪些典故,以F1值为评价指标。对比基线中,“人类基线”指的是专业标注员在测试集中的平均分数,[13]“+ RAG”指引入基于外部典故知识库的检索增强生成机制。实验结果如表3所示,[14]可见典故识别是一项挑战性极高的任务,不仅涉及文本语义理解,也需考查文化常识储备,即使是中文专业的标注人员也无法达到很高的精度。GPT‒4作为通用领域的大语言模型,在解决该类问题时表现欠佳,其中具体典故识别F1不到10%;引入外部知识库做检索增强后,效果得到显著提升,但也仅有47%。与之相较,“AI太炎”在用典判断准确率上超过了专业标注员的平均水平,在具体典故识别任务上的表现接近人类基线。
[13] 专业标注员包括古代汉语专业硕博研究生和汉语言文学专业大四本科生,测试集由多人同时标注,将单人标注结果和录入测试集的最终标注结果对比,得到单人标注分数,将多人分数平均得到人类基线。由于典故识别难度较大,标注员在标注时可以查阅知识库或工具书。
[14] 除“AI太炎”外,其余对照结果来自莫凯洁等(2024)。
(三)词语释义任务
考虑到词语释义任务在辅助古籍整理和文言文教学中的现实需求,我们从两种来源采集该任务的测试集:(1)在中华经典古籍库中按照时间顺序选取多个最新出版[15]的古籍整理本,并随机抽取出100条注释数据;(2)选取中学阶段课外阅读和考试相关文本[16]中100条注释数据。测试集数据共计200条,以下为两则示例,需要解释的词语以【】标记。
[15] 虽然我们并没有利用中华经典古籍库训练模型,但是为了严格避免测试数据在模型训练过程中见过,我们尽可能选取最新出版的古籍文本组成测试集。
[16] 示例内容参见:http://wyw.5156edu.com。
(1)若铅山诸邑所造柬纸,则全用细竹料厚质荡成,以【射】重价。最上者曰官柬,富贵之家,通刺用之,其纸敦厚而无筋膜。
(2)其汞海、草汞之说,无端狂妄,【耳食】者信之。若水银已升朱,则不可复还为汞,所谓造化之巧已尽也。
实验中,除了“AI太炎”外,我们还引入GPT‒4和文史专业硕博研究生作答结果作为对比基线。研究生作答时不能查阅资料,仅依据对上下文的理解和自身语言知识储备进行释义。考虑到释义可以有多样化的表达方式,无法直接通过字符匹配计算准确率,且古籍整理本和课外阅读文本中的注释参考答案不一定完全准确,我们邀请两名古代汉语专业研究生对模型和人的作答结果进行人工评估。为确保评估的公正性和可靠性,对于每条注释,我们均提供3组匿名且随机排序的作答结果,以确保评估员不知道哪条结果出自哪个模型/人。同时,评估时会提供参考答案,并允许评估员查阅各种资料,对每条作答结果进行准确评分:1分,正确、精准,能够帮助人的理解;0.5分,接近,有部分问题或者不清楚之处;0分,错误、离谱,会误导他人。我们首先开展试评估与讨论,以确保评估员对评分标准的理解一致,然后再进行正式评估。经实验,两位评估员的整体评分一致性(Spearman相关系数)达到0.8842。
词语释义的测试结果如表4所示,其中“严格准确率”指完全正确(得1分)的比例,“准确率”指完全正确与部分正确(得0.5分)的比例之和。由表中结果可见,词语释义任务对于文史专业的硕博研究生来说仍然十分困难,而“AI太炎”不仅远远超过GPT‒4和人类基线,而且准确率达到80%以上,这意味着我们可以利用模型对文本中的重难点词义进行初步判断,以辅助人阅读或整理古籍。同时,相关技术对于辅助辞书编纂和古汉语词义研究也有一定应用潜力。
(四)文白翻译任务
文白翻译作为综合性的任务,不仅需正确理解古汉语文本中的字、词、句、段含义,还需要结合一定的背景文化知识,将文本的意义用合理、通顺的现代汉语表达出来。考虑到文白翻译的复杂性,我们除了采用传统机器翻译自动评测方法外,还引入了人工评估的方式。
在自动评测阶段,我们从中华经典古籍库中采样了100段带有人工翻译结果的文言文‒白话文对照文本,每段长度从几十到数百字不等,希望同时考查模型对短文本和长文本的翻译水平。评测指标为机器翻译领域常见的BLEU和CHRF值,二者反映机器译文和参考译文的字符相似程度,数值越高表示翻译效果越好。测试结果如表5所示,在这两项指标上,“AI太炎”均具有非常明显的优势。
在分析模型输出结果时,我们发现,虽然百度翻译和GPT‒4的自动评测分值接近,但其翻译策略有较大差别:百度翻译常常出现照抄原文的现象,而GPT‒4倾向于给出比较详细的解释和译文,但BLEU和CHRF的计算却无法反映这种差异。为了更严谨、更准确地评估翻译质量,我们采用与词语释义类似的方法开展人工评估。
在人工评估阶段,测试集同样包括两种来源:(1)在中华经典古籍库中按照时间顺序选取多个最新出版的古籍整理本,抽取其中100段文本作为测试集的一部分;(2)选取中学阶段课外阅读和考试相关文本中的100段文本加入测试集。测试集数据共计200条,以下为两则示例。
(3)晉陵張公治信之明年,皇祐二年也,姦彊帖柔,隱詘發舒,既政大行,民以寧息。夏六月乙亥,大水。公徙囚於高獄,命百隸戒,不共有常誅。夜漏半,水破城,滅府寺,苞民廬居。公趨譙門,坐其下,敕吏士以桴收民,鰥孤老癃與所徙之囚,咸得不死。
(4)顺治二年乙酉四月,江都围急。督相史忠烈公知势不可为,集诸将而语之曰:“吾誓与城为殉,然仓皇中不可落于敌人之手以死,谁为我临期成此大节者?”副将军史德威慨然任之。忠烈喜曰:“吾尚未有子,汝当以同姓为吾后。吾上书太夫人,谱汝诸孙中。”
人工评估实验中,我们选择自动评测中表现较优的百度翻译和GPT‒4作为模型基线,并邀请9位文史专业硕博研究生闭卷作答,将其结果列为人类基线。评估员为4名古代汉语、古典文献学和历史学专业的博士研究生,评估方式和流程同词义解释任务。翻译评分采用5分制:5分,错误极少,无关键性理解错误(包括关键实词、名物、衔接、语法错误等),语义通顺连贯,贴近原文,能够很好地帮助人理解;4分,错误很少,有1~2个关键错误,语义通顺连贯,贴近原文,能够辅助人的理解;3分,错误较少,语义基本通顺,连贯性有所欠缺,能够在一定程度上辅助人的理解;2分,错误较多,文意不通顺,让人产生理解困惑;1分,大片错误,语言基本不通,或完全误导人的理解(有害的胡说八道)。经实验,4位评分员的整体评分一致性(Spearman相关系数)达到0.7548。
人工评估实验以大语言模型匿名对战评测常用的“胜率”(Zhao et al. 2023)作为指标报告结果,此处的“胜率”指各翻译方法排名第一所占比例,评分相同则排名相同。从图1可以看出,与自动评测结果差异较大的是百度翻译,虽然其自动评测结果与GPT‒4接近,但其真实译文质量与其他模型有很大差距,可见文白翻译任务如果仅仅关注机器自动评测指标不一定能得到可靠结果。综合来看,在人工评估环节中,“AI太炎”仍然具有明显优势。
五、“AI太炎”的应用探讨
由上节评测结果可见,“AI太炎”在多项任务上较现有模型有明显优势,且达到了接近或超过人类基线的水平。考虑到该模型具有较好的古籍文本分析能力,本节将进一步探讨其在古籍整理、辞书编纂和语言研究等领域的应用潜力。
(一)辅助古籍整理
古籍整理和出版过程中,往往需要专家根据出版需求开展标点、注解、翻译等工作,每项任务对于专家的知识和经验都有极高要求,因此,人力和时间成本极高。“AI太炎”可以在各个流程中起到相应的辅助作用,以提升古籍整理和出版的效率。此外,该模型还可接入数字化古籍应用平台,由用户按需分析,获取个性化注解内容。
在传统的古籍整理出版流程中,对于句读标点环节来说,我们一方面可以运用“AI太炎”的自动标点技术进行文本预处理,再交由专家校对修改,以确保文本的可读性和准确性;另一方面,还可在修订文稿的过程中由该模型进行文本后处理,找出文稿中可能存在的句读标点错误,提醒专家重点审订。在古籍文本的注释环节,“AI太炎”的词语释义功能可提供较高质量的词语解释,即便自动生成的释义有时不能完全满足需求,编纂者也可借助其生成的文白翻译结果作为参考。如此,编纂者便可快速采纳或修改该模型提供的结果,以完成对关键词语的注解。一般来说,整理本古籍很少给出白话文翻译,这一方面是由于出版社默认书籍受众为专业人士,无须进行详细注译;另一方面是由于文白翻译难度大,需要投入大量的人力和时间成本才能完成。如果利用“AI太炎”的文白翻译功能,只需由专家对译文进行修改即可,就可大大降低工作量,让不少整理本古籍有机会变成全译本,从而服务于更多读者。
在数字化古籍的应用中,不同读者对文本内容的困惑点各不相同,因此,提供个性化注解显得尤为重要。此时,“AI太炎”即时反馈的能力便凸显出来,它可以根据读者的需求实时提供字、词、句、篇的白话文解释,大大降低古籍文本阅读难度,提升阅读体验。
(二)辅助辞书编纂
辞书编纂工作涉及古汉语词汇的释义和例句选择,挑战性极高且工作量巨大。利用“AI太炎”对大规模数据进行词义分析,对于辞书的编纂和修订工作来说均有明显助益。
首先,给定关键词之后,我们可以采集大规模包含关键词的语料,利用“AI太炎”对该词在上下文中的含义进行标注。由于结合上下文语境的词义解释具有较高的多样性,我们可以进一步利用Jaro-Winkler(Winkler 1990)距离等方法对释义进行聚类,并根据不同需求来调整聚类的精细程度。由此,聚类结果可以帮助专家确定词义的使用频率及其精确用例,从而更好地设置词典中的义项及其顺序。
其次,现有辞书中时有因编纂者理解偏差而造成注解错误的情况,为辞书修订工作带来了较大困难。如以下两则示例。[17]
《汉语大词典》中词条“進利”,释义为“仕進順利”,例句为:
(5)曄少時,兄晏常云:“此兒進利,終破門户。”終如晏言。
此处对“進利”的解释并不正确,依例句,应为“贪利”。
《汉语大词典》的词条“進資”,解释为“給予費用”,例句为:
(6)爾令行百里,運不絶道,使軍不乏而士益振,以迄有成,賞可後哉!進資一等,以示褒嘉。
此处对“進資”的解释同样发生错误,依例句,应表示官职提升,而非给予费用。
“AI太炎”将例(5)中的“此兒進利”注释为“谓谋利求进”,将例(6)中的“進資一等”注释为“谓官员再得升迁”,对两句的翻译如下:
(5′)范曄小的時候,他哥哥范晏常說:“這孩子貪圖名利,終究會敗壞我們家族。”最後果然像范晏所說的那樣。
(6′)你能使軍隊行軍百里而不斷絕運輸,保證軍隊供給不發生困難,士氣越來越振奮,終於獲得成功,這是值得慶賀的啊!現在進升官階一級,以表示我的褒獎之意。
可见,“AI太炎”的注译可以帮助编纂者疏通上下文的含义,避免理解偏误。在辞书修订的具体应用过程中,我们可以利用该模型对辞书各条目的词语结合其例句上下文进行解释,或对例句进行翻译,然后将注译结果与辞书给出的释义进行自动比对,从而挖掘出不一致的地方,为修订工作提供线索。
[17] 选自吴铭的《汉语大词典》校札笔记。
(三)辅助语言研究
与人相较,大语言模型的一个重要能力是可以快速对大量数据进行处理。除了标记的速度和精度外,由于是同一个模型标注,一致性也可以得到很好的保证。以词义的大规模标注为例,其标注结果一方面可以辅助上文提及的辞书编纂,另一方面也可以辅助探究汉语的词义演变问题。
为开展相关研究,我们构建了超过1亿字的古汉语历时语料库,按照时间先后顺序分为:先秦、两汉、魏晋南北朝、唐、宋、元、明、清。如前文所述,给定关键词,我们可以从库中获取所有相关语料,要求该模型对关键词的含义进行注释,进而通过聚类获取义项及其历时频率信息。图2给出“文章”和“消息”的示例,聚类后分别取每个词语的两个最高频义项,呈现其历时频率变化情况。由图中统计结果可见,“文章”始指花纹,从魏晋南北朝开始主要用于文学相关的含义;“消息”本指“消”和“息”,表示消散和生长,常用于指变化,自魏晋南北朝开始,“消息”主要指音讯。与现有的人工分析和自动分析方法(如舒蕾,等2022)相比,这种方法无须人工设计义项和标注数据,可以很方便地拓展到其他词语上。如果我们据此对大批量词语进行自动标注分析,无疑将有助于系统地研究汉语词义演变规律。
六、总结与展望
本研究针对古汉语信息处理任务“低资源”“富知识”的特点,提出从头构建古汉语大语言模型的方法。首先,从领域知识学习需求和数据现状出发,设计小型大语言模型结构(52层、1.8B参数量);进一步,经数据处理、基座训练及微调,构建“AI太炎”古汉语大语言模型。该模型具有较强的古典文献释读能力,支持句读标点、典故辨识、词义解释及文白翻译等多种具有挑战性的文言文理解任务,兼容简体字和繁体字文本。实验显示,与大型通用模型和其他领域模型相比,“AI太炎”在多项评测任务上表现出明显优势,且达到了接近或超过人类基线的水平。此外,本文还探讨了该模型在辅助古籍整理、辞书编纂修订和语言研究等工作上的应用潜力。
值得一提的是,本研究为高效构建专门领域大语言模型提供了参考。由于通用领域大模型在垂直领域的任务上缺乏对专业知识的理解,构建专门领域的大语言模型能够更为系统地学习领域知识,从而为垂直领域应用提供服务。在具体构建专门领域模型时,并非简单使用领域数据微调通用开源模型即可取得理想效果,而需特别注意如下几方面的问题:第一,模型研发人员需和领域专家通力协作以明确该领域的实际需求,并开展相应任务设计,进而从实际问题出发来采集训练数据并标注特定领域微调数据,数据的规模、质量和多样性对模型的语言能力有重要影响;第二,需针对不同的专业任务估算出训练数据量和对应的模型参数量,以提升训练效率和资源利用率;第三,在完成训练后需对模型的专业能力进行多轮测试评估,评测不仅是在事先划定的测试集上报告实验结果,还有必要邀请该领域专业人员开展人工评估,专业人员对模型的评测和反馈是模型迭代中最有价值的信息源,因此评测工作有赖于模型研发人员和领域专业人员的有效配合;第四,在应用方面,专门领域大语言模型的应用有别于通用大语言模型的对话聊天场景,将其集成到专门领域的平台或工具中或能够为该领域工作人员提供更为高效的服务。
需要指出的是,当前大语言模型处理的任务仍然有限,同时也会在一些问题上犯错误,给人带来误解。因此,现阶段的模型应用主要还是定位在辅助性角色上。未来,古汉语大语言模型仍有必要引入更多具有现实需求的任务,并借助高质量数据和改进的训练微调机制引导模型提升学习能力,使其能够胜任更多的古汉语相关工作。
该文发表于《语言战略研究》2024年第5期,引用请以期刊版为准,转发请注明来源。
转载自公众号“语言战略研究”
特别鸣谢
敦和基金会
北京师范大学汉字汉语研究与社会应用实验室
文章原创|版权所有|转发请注出处
公众号主编:孟琢 谢琰 董京尘