2024年第5期
專題研究一 大語言模型
作者簡介
李紳
北京師範大學在讀博士研究所學生,主要研究方向為計算語言學和數字人文
胡韌奮
北京師範大學副教授,主要研究方向為計算語言學和數字人文
王立軍
北京師範大學教授,主要研究方向為漢字學、訓诂學和詞彙語義學
古漢語大語言模型的建構及應用研究
李 紳1,胡韌奮2,王立軍1
(1.北京師範大學 文學院 北京 100875;2.北京師範大學 國際中文教育學院 北京 100875)
提 要 通用大語言模型在古漢語語言資訊處理任務上的效果往往不夠理想,是以,我們從領域知識學習需求出發,針對古漢語資訊處理任務“低資源”“富知識”的特點,從頭建構了專門适用于古代漢語了解與生成的大語言模型“AI太炎”。通過合理的模型設計、資料處理、基座訓練及微調,僅使用1.8B參數量即可取得較好效果。該模型具有較強的古典文獻釋讀能力,支援句讀标點、典故識别、詞義解釋及文白翻譯等多種具有挑戰性的文言文了解任務,相容簡體字和繁體字文本。實驗顯示,與大型通用模型和其他領域模型相比,“AI太炎”在多項古漢語資訊處理關鍵任務上表現出明顯優勢,且達到了接近或超過人類基線的水準。此外,在輔助古籍整理、辭書編纂和語言研究等方面,該模型也表現出了很大的應用潛力。
關鍵詞 大語言模型;古漢語資訊處理;人工智能
一、引言
近年來,以GPT‒4(OpenAI 2023)、LLAMA2(Touvron et al. 2023)為代表的通用大語言模型受到學界和公衆的廣泛關注(Zhao et al. 2023)。然而,通用大語言模型主要面向大衆使用者設計和研發,其訓練語料多來自網際網路公開資料,其中包含的專業知識相對有限。例如,網際網路中的中文資料,主要來自新聞網站、論壇等,這些資料幾乎均為現代漢語表述,這無疑限制了模型對古漢語的了解和處理能力。
古漢語作為中華文化的傳承載體,其文本蘊含着豐富的語言文化知識。由于文言表達綿延千年,其文字、詞彙、文法、語音系統不斷發展,每個時期都産生了複雜的語言現象,給後人的閱讀了解帶來了諸多障礙。除了語言層面的問題,對古漢國文本的了解還需依賴文本之外的曆史文化常識——古人對人、事的指稱常有多種變體,且表述追求含蓄蘊藉,常化用典故表達情感或思想。語言與文化的雙重挑戰,不僅給現代人學習和閱讀文言文帶來了困難,也是目前大陸古籍整理工作和古漢語資訊處理研究中的重難點所在。
為了更好地輔助古籍整理、文言文教學和數字人文研究工作,我們建構了一個專門适用于古漢語資訊處理的大語言模型“AI太炎”。本文将從模型設計、資料處理、基座訓練及微調等方面介紹該模型的建構方法,并結合案例探讨其在古籍整理、辭書編纂、語言研究等領域的應用。
二、相關研究進展
(一)古漢語資訊處理技術研究
近年來,面向古籍整理出版、文言文教學及數字人文研究的現實需求,古漢語資訊處理技術研究日趨深入,涉及句讀标點、分詞與詞性标注、命名實體識别與關系抽取、詞義識别、文白翻譯等衆多任務。
由于古籍文本一般不使用标點符号,是以古籍整理過程中的一項重要工作是句讀标點。據胡韌奮等(2021)統計,現有的古籍資料中,大部分尚未實作句讀,如殆知閣古代文獻藏書2.0版語料庫規模約33億字,其中僅25%左右的資料包含标點,可見古籍整理是一項浩大的工程,自動句讀技術有強烈的現實需求。為了解決這一問題,研究者采用傳統機器學習模型(張開旭,等2009)、神經網絡模型(王博立,等2017)、預訓練語言模型(俞敬松,等2019;胡韌奮,等2021;袁義國,等2022)等方法取得了較好效果。
如需利用計算機技術對大規模古籍文獻進行詞彙粒度研究,往往涉及古漢語分詞、詞性标注、命名實體識别、詞義消歧等基礎性的中文資訊處理任務。古漢語分詞經曆了基于規則比對的方法(邱冰,皇甫娟2008)、基于統計的方法(梁社會,陳小荷2013)以及基于機器學習與深度學習模型的方法(黃水清,等2015;程甯,等2020;Tang & Su 2022)3個發展階段。詞性标注和命名實體識别與其研究範式相近。為了實作詞義層面分析,舒蕾等(2022)建構了百萬字規模的古漢語詞義标注語料庫,并利用預訓練古漢語語言模型建構了詞義消歧算法。
文白翻譯(文言文‒白話文翻譯)是結合了古漢語諸多了解難點的綜合性任務,同時具有輔助現代人閱讀和學習文言文的突出現實需求。Liu et al.(2019)建構了基于Transformer模型的文白翻譯系統。Guo et al.(2023)進一步提出利用雙音節詞對齊和雙掩碼Transformer的文白翻譯模型,實作了超過Liu et al.(2019)模型的效果。
綜上可以看出,神經網絡模型及預訓練語言模型方法在古漢語資訊處理領域得到了較為廣泛的應用。然而,這些方法對訓練資料規模和品質的要求較高。在古漢語資訊處理場景中,很多任務具有“低資源”“富知識”的特點,這為相應的語言資源建設和模型研究帶來了很大挑戰。已有研究發現,采用資料增廣、聯合學習等機制能夠較好地緩解上述問題(李紳,等2023),而大語言模型的多任務、小樣本學習等能力十分突出,是以,建構專門的古漢語大語言模型具有提升古漢語資訊處理綜合能力的潛力。
(二)專門領域大語言模型建構研究
為增強大語言模型的領域知識了解能力,檢索增強生成(Retrieval-augmented Generation,RAG)和領域模型建構等方法應運而生。其中,檢索增強生成無須調整模型參數,主要采用向量檢索比對的方法從外部知識庫或資料庫中擷取與目前問題有關的領域知識,然後将目前問題與檢索得到的結果組合後輸入大語言模型,令其在參考外部知識的前提下回答問題(Gao et al. 2023)。與檢索增強生成相比,建構專門領域的大語言模型能夠更為系統地學習領域知識,進而為垂直領域應用提供服務,例如司法領域大語言模型ChatLaw(Cui et al. 2023)、醫療領域大語言模型medGPT[1]、科技文獻領域大語言模型“墨子”[2]等。在古漢語領域,也有“荀子”[3]、“九思”等大語言模型,旨在實作古籍文獻的分析處理。然而,上述專業領域大語言模型主要是通過對LLaMA、Qwen、Baichuan等開源的通用領域大語言模型繼續訓練或微調得到。Taylor et al.(2022)和Lehman et al.(2023)指出,對于專業領域的任務來說,使用專業領域資料訓練的模型通常表現更好。是以,本研究旨在從頭建構專門的古漢語大語言模型“AI太炎”,使其可以較為充分地編碼古代漢語和文化知識。
[1] 參見:https://medgpt.co。
[2] 參見:https://github.com/gmftbyGMFTBY/science-llm。
[3] 參見:https://github.com/Xunzi-LLM-of-Chinese-classics/XunziALLM。
三、“AI太炎”的設計
(一)模型結構
參考最新的大語言模型架構,我們以Transformer模型為基礎,使用SwiGLU激活函數(Shazeer 2020),并采用ALiBi位置編碼(Press et al. 2021)以應對長文本的處理。為加速訓練過程,我們引入了Flash Attention機制(Dao 2022)。在模型參數量方面,主流開源的大語言模型多采用6~7B、13~14B、70B等設定。考慮到古漢語大語言模型旨在編碼專門領域知識,相應的訓練資料規模遠遠小于通用的英文和現代漢語任務,模型大小需要和資料規模相比對,我們參照Hoffmann et al.(2022)提出的模型最優結構組合曲線,将模型設計為52層(blocks),共1.8B(18億)參數。近期,多項研究工作表明,經過合理的設計和訓練,小型大語言模型能夠兼顧效率和效果的平衡,如Gemma(2B)[4]、MiniCPM(2.4B)[5]等。
[4] 參見:https://ai.google.dev/gemma。
[5] 參見:https://github.com/OpenBMB/MiniCPM。
(二)預訓練任務與資料
大語言模型的訓練通常包括兩個階段:一是預訓練階段,主要利用大規模無标注文本訓練基座語言模型,使模型具有較好的基礎語言能力;二是有監督微調階段,需基于大量有标注資料引導模型學習特定領域知識,完成多項具體任務。
在預訓練階段,模型主要通過預測下一個詞的任務來學習基礎語言知識。大語言模型屬于機器學習模型,即模型的參數權重大小是基于對訓練資料的拟合而得到的,訓練資料的規模、品質和多樣性對模型的語言能力具有決定性影響。雖然古漢語大語言模型重在對古代漢語的了解和生成,但是其輸出結果多服務于當代人的閱讀,比如文白翻譯任務需将古代文言文翻譯成現代白話文,是以基座語言模型需要兼具古代和現代漢語表達能力。此外,在古漢語資訊處理技術的現實應用中,簡體字和繁體字文本均有相應需求。為此,在“AI太炎”的預訓練階段,我們采集了約250億字的高品質現代漢國文本和35億字的古代漢國文本作為預訓練語料,簡體字和繁體字文本均占有一定比例。其中,現代漢國文本包括網際網路上的新聞、百科、論壇等資料[6],古代漢國文本涵蓋了古詩詞、散文、小說等衆多體裁[7]。
[6] 參見:https://github.com/Embedding/Chinese-Word-Vectors。
[7] 參見:https://github.com/garychowcmu/daizhigev20。
(三)有監督微調任務與資料
在有監督微調階段,我們希望“AI太炎”能夠聚焦領域知識,解決領域問題,是以其不必在通用大語言模型擅長的聊天會話、開放域問答等任務上進行專門學習,而應該重點關注古漢語了解的難點。是以,在設計有監督微調任務時,主要遵循以下兩條原則:第一,所選擇的任務應能夠覆寫字、詞、句、段等不同層級的語言知識,且能夠引導模型學習古代典籍中的經典文化常識;第二,針對各任務,能夠采集到高品質且較大規模的标注資料。據此,我們設計了4項微調任務:句讀标點、典故識别、詞語釋義和文白翻譯。具體示例見表1。
通過搜集并改寫原始資料,我們共采集到約30億字可供有監督微調的訓練資料,其中句讀标點任務約15億字,詞語釋義任務約6億字,典故識别任務約0.5億字,文白翻譯任務約8億字。
(四)模型訓練
Tang et al.(2024)指出,對資料的重複使用有助于提升語言模型的訓練效果,是以,我們在訓練“AI太炎”時對資料進行了一定的重複采樣。依據Hoffmann et al.(2022)的經驗曲線,給定1.8B參數量的模型,我們将其在預訓練資料上訓練了1000億字元,然後在有監督資料上繼續微調訓練了250億字元。模型的最大學習速率設為1e-4,之後以餘弦的方式衰減(Loshchilov & Hutter 2016)。
四、“AI太炎”的評測結果
本文針對4項古漢語資訊處理關鍵任務展開了開放評測。為了確定評測結果公平、客觀,所有評測集資料均采自中華經典古籍庫[8]等網際網路未開源的資源庫,以確定模型在預訓練和微調階段均未見過測試資料。除了評測“AI太炎”外,針對各項任務,我們還分别引入多個已有模型及文史專業研究所學生作答結果作為對比基線。在通用大語言模型方面,我們選擇在各項通用評測中均表現優秀的GPT–4模型[9],在4項任務上均對其進行了測試。在領域模型方面,我們引入基于通用開源模型微調得到的古漢語大語言模型“荀子”(Xunzi-Qwen-7B-CHAT),根據其說明文檔,在句讀标點和文白翻譯任務上對其進行了評測。此外,在文白翻譯任務上,還引入百度翻譯中的“中文(文言文)‒中文(簡體)”文白機器翻譯系統[10]作為對比。最後,我們邀請多位文史專業研究所學生參與典故識别、詞語釋義和文白翻譯的人工評測。接下來,本節将對各項任務的具體評測方式和結果進行介紹。
[8] 中華經典古籍庫收錄了高品質的古籍整理出版成果,且具有嚴格的反爬蟲、反複制機制,是以非常适合作為模型測試資料。參見:https://publish.ancientbooks.cn/docShuju/platform.jspx。
[9] GPT‒4處理結果采用OpenAI API調用方式擷取,模型版本為gpt‒4‒1106‒preview,實驗中設定temperature參數為0,以確定模型輸出結果的一緻性和穩定性。
[10] 百度文白翻譯通過其翻譯API擷取處理結果。參見:https://api.fanyi.baidu.com/doc/21。
(一)句讀标點任務
對于句讀标點任務,我們從中華經典古籍庫中随機選取200段經點校的古籍文本作為測試資料,并用F1值[11]來評測各模型的表現,結果如表2所示。值得注意的是,現有大語言模型的一個突出問題是添加标點時無法根據原文準确輸出,常見改字、丢字和增字現象,無論如何編寫提示詞,依然存在此問題。在“荀子”的輸出結果中,20.5%的樣本會出現原文錯誤,而GPT‒4輸出的樣本也有11%會出現原文錯誤。與之相較,“AI太炎”在解碼過程中針對句讀标點任務進行了優化,即限制模型輸出結果僅包括原文詞表和标點符号,是以完全避免了輸出錯誤原文的問題。
[11] 标點F1指的是對“,。!?;:、”比對的結果,而斷句F1則無須關注标點符号的類型。
為了更好地評測标點效果,我們在計算“荀子”和GPT‒4的标點效果時排除了輸出有誤的樣本,僅看其正常标點的效果[12]。如表2所示,在斷句和标點任務上,“AI太炎”具有明顯優勢,尤其是斷句任務的F1值接近97%,達到了較為實用的水準。
[12] “荀子”和GPT‒4的斷句标點F1值基于正确輸出樣本計算,即忽略了輸出文本有誤的樣本。實際上,在真實使用中還需要考慮文本錯誤率的影響,也就是說其真實的斷句标點F1值會更低。
(二)典故識别任務
本文采用莫凱潔等(2024)建構的資料集和評測方法,對各模型進行了用典判斷和具體典故識别評測。其中,用典判斷為二分類任務,即判斷給定文本是否用典,以準确率為評價名額;具體典故識别為多标簽、多分類任務,即判斷給定文本使用了哪些典故,以F1值為評價名額。對比基線中,“人類基線”指的是專業标注員在測試集中的平均分數,[13]“+ RAG”指引入基于外部典故知識庫的檢索增強生成機制。實驗結果如表3所示,[14]可見典故識别是一項挑戰性極高的任務,不僅涉及文本語義了解,也需考查文化常識儲備,即使是中文專業的标注人員也無法達到很高的精度。GPT‒4作為通用領域的大語言模型,在解決該類問題時表現欠佳,其中具體典故識别F1不到10%;引入外部知識庫做檢索增強後,效果得到顯著提升,但也僅有47%。與之相較,“AI太炎”在用典判斷準确率上超過了專業标注員的平均水準,在具體典故識别任務上的表現接近人類基線。
[13] 專業标注員包括古代漢語專業碩博研究所學生和漢語言文學專業大四大學生,測試集由多人同時标注,将單人标注結果和錄入測試集的最終标注結果對比,得到單人标注分數,将多人分數平均得到人類基線。由于典故識别難度較大,标注員在标注時可以查閱知識庫或工具書。
[14] 除“AI太炎”外,其餘對照結果來自莫凱潔等(2024)。
(三)詞語釋義任務
考慮到詞語釋義任務在輔助古籍整理和文言文教學中的現實需求,我們從兩種來源采集該任務的測試集:(1)在中華經典古籍庫中按照時間順序選取多個最新出版[15]的古籍整理本,并随機抽取出100條注釋資料;(2)選取中學階段課外閱讀和考試相關文本[16]中100條注釋資料。測試集資料共計200條,以下為兩則示例,需要解釋的詞語以【】标記。
[15] 雖然我們并沒有利用中華經典古籍庫訓練模型,但是為了嚴格避免測試資料在模型訓練過程中見過,我們盡可能選取最新出版的古籍文本組成測試集。
[16] 示例内容參見:http://wyw.5156edu.com。
(1)若鉛山諸邑所造柬紙,則全用細竹料厚質蕩成,以【射】重價。最上者曰官柬,富貴之家,通刺用之,其紙敦厚而無筋膜。
(2)其汞海、草汞之說,無端狂妄,【耳食】者信之。若水銀已升朱,則不可複還為汞,所謂造化之巧已盡也。
實驗中,除了“AI太炎”外,我們還引入GPT‒4和文史專業碩博研究所學生作答結果作為對比基線。研究所學生作答時不能查閱資料,僅依據對上下文的了解和自身語言知識儲備進行釋義。考慮到釋義可以有多樣化的表達方式,無法直接通過字元比對計算準确率,且古籍整理本和課外閱讀文本中的注釋參考答案不一定完全準确,我們邀請兩名古代漢語專業研究所學生對模型和人的作答結果進行人工評估。為確定評估的公正性和可靠性,對于每條注釋,我們均提供3組匿名且随機排序的作答結果,以確定評估員不知道哪條結果出自哪個模型/人。同時,評估時會提供參考答案,并允許評估員查閱各種資料,對每條作答結果進行準确評分:1分,正确、精準,能夠幫助人的了解;0.5分,接近,有部分問題或者不清楚之處;0分,錯誤、離譜,會誤導他人。我們首先開展試評估與讨論,以確定評估員對評分标準的了解一緻,然後再進行正式評估。經實驗,兩位評估員的整體評分一緻性(Spearman相關系數)達到0.8842。
詞語釋義的測試結果如表4所示,其中“嚴格準确率”指完全正确(得1分)的比例,“準确率”指完全正确與部分正确(得0.5分)的比例之和。由表中結果可見,詞語釋義任務對于文史專業的碩博研究所學生來說仍然十分困難,而“AI太炎”不僅遠遠超過GPT‒4和人類基線,而且準确率達到80%以上,這意味着我們可以利用模型對文本中的重難點詞義進行初步判斷,以輔助人閱讀或整理古籍。同時,相關技術對于輔助辭書編纂和古漢語詞義研究也有一定應用潛力。
(四)文白翻譯任務
文白翻譯作為綜合性的任務,不僅需正确了解古漢國文本中的字、詞、句、段含義,還需要結合一定的背景文化知識,将文本的意義用合理、通順的現代漢語表達出來。考慮到文白翻譯的複雜性,我們除了采用傳統機器翻譯自動評測方法外,還引入了人工評估的方式。
在自動評測階段,我們從中華經典古籍庫中采樣了100段帶有人工翻譯結果的文言文‒白話文對照文本,每段長度從幾十到數百字不等,希望同時考查模型對短文本和長文本的翻譯水準。評測名額為機器翻譯領域常見的BLEU和CHRF值,二者反映機器譯文和參考譯文的字元相似程度,數值越高表示翻譯效果越好。測試結果如表5所示,在這兩項名額上,“AI太炎”均具有非常明顯的優勢。
在分析模型輸出結果時,我們發現,雖然百度翻譯和GPT‒4的自動評測分值接近,但其翻譯政策有較大差别:百度翻譯常常出現照抄原文的現象,而GPT‒4傾向于給出比較詳細的解釋和譯文,但BLEU和CHRF的計算卻無法反映這種差異。為了更嚴謹、更準确地評估翻譯品質,我們采用與詞語釋義類似的方法開展人工評估。
在人工評估階段,測試集同樣包括兩種來源:(1)在中華經典古籍庫中按照時間順序選取多個最新出版的古籍整理本,抽取其中100段文本作為測試集的一部分;(2)選取中學階段課外閱讀和考試相關文本中的100段文本加入測試集。測試集資料共計200條,以下為兩則示例。
(3)晉陵張公治信之明年,皇祐二年也,姦彊帖柔,隱詘發舒,既政大行,民以寧息。夏六月乙亥,大水。公徙囚於高獄,命百隸戒,不共有常誅。夜漏半,水破城,滅府寺,苞民廬居。公趨譙門,坐其下,敕吏士以桴收民,鰥孤老癃與所徙之囚,鹹得不死。
(4)順治二年乙酉四月,江都圍急。督相史忠烈公知勢不可為,集諸将而語之曰:“吾誓與城為殉,然倉皇中不可落于敵人之手以死,誰為我臨期成此大節者?”副将軍史德威慨然任之。忠烈喜曰:“吾尚未有子,汝當以同姓為吾後。吾上書太夫人,譜汝諸孫中。”
人工評估實驗中,我們選擇自動評測中表現較優的百度翻譯和GPT‒4作為模型基線,并邀請9位文史專業碩博研究所學生閉卷作答,将其結果列為人類基線。評估員為4名古代漢語、古典文獻學和曆史學專業的博士研究所學生,評估方式和流程同詞義解釋任務。翻譯評分采用5分制:5分,錯誤極少,無關鍵性了解錯誤(包括關鍵實詞、名物、銜接、文法錯誤等),語義通順連貫,貼近原文,能夠很好地幫助人了解;4分,錯誤很少,有1~2個關鍵錯誤,語義通順連貫,貼近原文,能夠輔助人的了解;3分,錯誤較少,語義基本通順,連貫性有所欠缺,能夠在一定程度上輔助人的了解;2分,錯誤較多,文意不通順,讓人産生了解困惑;1分,大片錯誤,語言基本不通,或完全誤導人的了解(有害的胡說八道)。經實驗,4位評分員的整體評分一緻性(Spearman相關系數)達到0.7548。
人工評估實驗以大語言模型匿名對戰評測常用的“勝率”(Zhao et al. 2023)作為名額報告結果,此處的“勝率”指各翻譯方法排名第一所占比例,評分相同則排名相同。從圖1可以看出,與自動評測結果差異較大的是百度翻譯,雖然其自動評測結果與GPT‒4接近,但其真實譯文品質與其他模型有很大差距,可見文白翻譯任務如果僅僅關注機器自動評測名額不一定能得到可靠結果。綜合來看,在人工評估環節中,“AI太炎”仍然具有明顯優勢。
五、“AI太炎”的應用探讨
由上節評測結果可見,“AI太炎”在多項任務上較現有模型有明顯優勢,且達到了接近或超過人類基線的水準。考慮到該模型具有較好的古籍文本分析能力,本節将進一步探讨其在古籍整理、辭書編纂和語言研究等領域的應用潛力。
(一)輔助古籍整理
古籍整理和出版過程中,往往需要專家根據出版需求開展标點、注解、翻譯等工作,每項任務對于專家的知識和經驗都有極高要求,是以,人力和時間成本極高。“AI太炎”可以在各個流程中起到相應的輔助作用,以提升古籍整理和出版的效率。此外,該模型還可接入數字化古籍應用平台,由使用者按需分析,擷取個性化注解内容。
在傳統的古籍整理出版流程中,對于句讀标點環節來說,我們一方面可以運用“AI太炎”的自動标點技術進行文本預處理,再交由專家校對修改,以確定文本的可讀性和準确性;另一方面,還可在修訂文稿的過程中由該模型進行文本後處理,找出文稿中可能存在的句讀标點錯誤,提醒專家重點審訂。在古籍文本的注釋環節,“AI太炎”的詞語釋義功能可提供較高品質的詞語解釋,即便自動生成的釋義有時不能完全滿足需求,編纂者也可借助其生成的文白翻譯結果作為參考。如此,編纂者便可快速采納或修改該模型提供的結果,以完成對關鍵詞語的注解。一般來說,整理本古籍很少給出白話文翻譯,這一方面是由于出版社預設書籍閱聽人為專業人士,無須進行詳細注譯;另一方面是由于文白翻譯難度大,需要投入大量的人力和時間成本才能完成。如果利用“AI太炎”的文白翻譯功能,隻需由專家對譯文進行修改即可,就可大大降低工作量,讓不少整理本古籍有機會變成全譯本,進而服務于更多讀者。
在數字化古籍的應用中,不同讀者對文本内容的困惑點各不相同,是以,提供個性化注解顯得尤為重要。此時,“AI太炎”即時回報的能力便凸顯出來,它可以根據讀者的需求實時提供字、詞、句、篇的白話文解釋,大大降低古籍文本閱讀難度,提升閱讀體驗。
(二)輔助辭書編纂
辭書編纂工作涉及古漢語詞彙的釋義和例句選擇,挑戰性極高且工作量巨大。利用“AI太炎”對大規模資料進行詞義分析,對于辭書的編纂和修訂工作來說均有明顯助益。
首先,給定關鍵詞之後,我們可以采集大規模包含關鍵詞的語料,利用“AI太炎”對該詞在上下文中的含義進行标注。由于結合上下文語境的詞義解釋具有較高的多樣性,我們可以進一步利用Jaro-Winkler(Winkler 1990)距離等方法對釋義進行聚類,并根據不同需求來調整聚類的精細程度。由此,聚類結果可以幫助專家确定詞義的使用頻率及其精确用例,進而更好地設定詞典中的義項及其順序。
其次,現有辭書中時有因編纂者了解偏差而造成注解錯誤的情況,為辭書修訂工作帶來了較大困難。如以下兩則示例。[17]
《漢語大詞典》中詞條“進利”,釋義為“仕進順利”,例句為:
(5)曄少時,兄晏常雲:“此兒進利,終破門戶。”終如晏言。
此處對“進利”的解釋并不正确,依例句,應為“貪利”。
《漢語大詞典》的詞條“進資”,解釋為“給予費用”,例句為:
(6)爾令行百裡,運不絶道,使軍不乏而士益振,以迄有成,賞可後哉!進資一等,以示褒嘉。
此處對“進資”的解釋同樣發生錯誤,依例句,應表示官職提升,而非給予費用。
“AI太炎”将例(5)中的“此兒進利”注釋為“謂謀利求進”,将例(6)中的“進資一等”注釋為“謂官員再得升遷”,對兩句的翻譯如下:
(5′)範曄小的時候,他哥哥範晏常說:“這孩子貪圖名利,終究會敗壞我們家族。”最後果然像範晏所說的那樣。
(6′)你能使軍隊行軍百裡而不斷絕運輸,保證軍隊供給不發生困難,士氣越來越振奮,終於獲得成功,這是值得慶賀的啊!現在進升官階一級,以表示我的褒獎之意。
可見,“AI太炎”的注譯可以幫助編纂者疏通上下文的含義,避免了解偏誤。在辭書修訂的具體應用過程中,我們可以利用該模型對辭書各條目的詞語結合其例句上下文進行解釋,或對例句進行翻譯,然後将注譯結果與辭書給出的釋義進行自動比對,進而挖掘出不一緻的地方,為修訂工作提供線索。
[17] 選自吳銘的《漢語大詞典》校劄筆記。
(三)輔助語言研究
與人相較,大語言模型的一個重要能力是可以快速對大量資料進行處理。除了标記的速度和精度外,由于是同一個模型标注,一緻性也可以得到很好的保證。以詞義的大規模标注為例,其标注結果一方面可以輔助上文提及的辭書編纂,另一方面也可以輔助探究漢語的詞義演變問題。
為開展相關研究,我們建構了超過1億字的古漢語曆時語料庫,按照時間先後順序分為:先秦、兩漢、魏晉南北朝、唐、宋、元、明、清。如前文所述,給定關鍵詞,我們可以從庫中擷取所有相關語料,要求該模型對關鍵詞的含義進行注釋,進而通過聚類擷取義項及其曆時頻率資訊。圖2給出“文章”和“消息”的示例,聚類後分别取每個詞語的兩個最高頻義項,呈現其曆時頻率變化情況。由圖中統計結果可見,“文章”始指花紋,從魏晉南北朝開始主要用于文學相關的含義;“消息”本指“消”和“息”,表示消散和生長,常用于指變化,自魏晉南北朝開始,“消息”主要指音訊。與現有的人工分析和自動分析方法(如舒蕾,等2022)相比,這種方法無須人工設計義項和标注資料,可以很友善地拓展到其他詞語上。如果我們據此對大批量詞語進行自動标注分析,無疑将有助于系統地研究漢語詞義演變規律。
六、總結與展望
本研究針對古漢語資訊處理任務“低資源”“富知識”的特點,提出從頭建構古漢語大語言模型的方法。首先,從領域知識學習需求和資料現狀出發,設計小型大語言模型結構(52層、1.8B參數量);進一步,經資料處理、基座訓練及微調,建構“AI太炎”古漢語大語言模型。該模型具有較強的古典文獻釋讀能力,支援句讀标點、典故辨識、詞義解釋及文白翻譯等多種具有挑戰性的文言文了解任務,相容簡體字和繁體字文本。實驗顯示,與大型通用模型和其他領域模型相比,“AI太炎”在多項評測任務上表現出明顯優勢,且達到了接近或超過人類基線的水準。此外,本文還探讨了該模型在輔助古籍整理、辭書編纂修訂和語言研究等工作上的應用潛力。
值得一提的是,本研究為高效建構專門領域大語言模型提供了參考。由于通用領域大模型在垂直領域的任務上缺乏對專業知識的了解,建構專門領域的大語言模型能夠更為系統地學習領域知識,進而為垂直領域應用提供服務。在具體建構專門領域模型時,并非簡單使用領域資料微調通用開源模型即可取得理想效果,而需特别注意如下幾方面的問題:第一,模型研發人員需和領域專家通力協作以明确該領域的實際需求,并開展相應任務設計,進而從實際問題出發來采集訓練資料并标注特定領域微調資料,資料的規模、品質和多樣性對模型的語言能力有重要影響;第二,需針對不同的專業任務估算出訓練資料量和對應的模型參數量,以提升訓練效率和資源使用率;第三,在完成訓練後需對模型的專業能力進行多輪測試評估,評測不僅是在事先劃定的測試集上報告實驗結果,還有必要邀請該領域專業人員開展人工評估,專業人員對模型的評測和回報是模型疊代中最有價值的資訊源,是以評測工作有賴于模型研發人員和領域專業人員的有效配合;第四,在應用方面,專門領域大語言模型的應用有别于通用大語言模型的對話聊天場景,将其內建到專門領域的平台或工具中或能夠為該領域從業人員提供更為高效的服務。
需要指出的是,目前大語言模型處理的任務仍然有限,同時也會在一些問題上犯錯誤,給人帶來誤解。是以,現階段的模型應用主要還是定位在輔助性角色上。未來,古漢語大語言模型仍有必要引入更多具有現實需求的任務,并借助高品質資料和改進的訓練微調機制引導模型提升學習能力,使其能夠勝任更多的古漢語相關工作。
該文發表于《語言戰略研究》2024年第5期,引用請以期刊版為準,轉發請注明來源。
轉載自公衆号“語言戰略研究”
特别鳴謝
敦和基金會
北京師範大學漢字漢語研究與社會應用實驗室
文章原創|版權所有|轉發請注出處
公衆号主編:孟琢 謝琰 董京塵