天天看點

技術革新背景下的詞典編纂創新

作者:永大英語

感謝您關注“永大英語”!

技術革新背景下的詞典編纂創新

技術革新背景下的詞典編纂創新

斯宛·塔普

詞典編纂正在經曆“身份危機”。挑戰來自3個方面:其一,新技術的不斷湧現及應用正對詞典編纂的幾乎每個方面都産生重要影響。其二,詞典出版的商業模式逐漸落伍。得益于印刷技術而發展起來的傳統詞典資助出版模式,已不能适應數字時代的新發展,作為文化實踐的詞典編纂正在面臨嚴峻挑戰。其三,來自其他類型資訊源(如搜尋引擎、機器翻譯程式及應用)的競争不斷增加。我們或許可以把這些競争解讀為數字時代背景下使用者對紙質詞典品質、關聯性與可及性的無聲批評。詞典編纂亟須“革新”,以避免陷入更深的危機。“革新”一詞,不僅僅意味着方法與技術的提升,更是指對整個領域的全新變革。從技術賦能詞典編纂的角度而言,“技術革新”之于詞典編纂,不僅意味着采用新方法和新技術改進編纂過程,也意味着以更新穎、更友好的方式向目标使用者呈現詞典,還意味着研發全新的詞典産品。基于我所參與的數字詞典項目,下面從“理念”“實踐”與“反思”3個方面與中國同行分享我的認識。

首先,就理念而言,何為“詞典編纂現代化”?我認為,它意味着編者的精力應從專注編纂詞典轉向緻力于建設和應用詞典資料庫。換言之,詞典編者生産的首要産品不應再是詞典文本,而是存儲在資料庫裡的詞典資料。這些資料既可以紙質辭書的形式呈現給使用者,也可嵌入到數字化學習工具中(如“電子閱讀器”“寫作助手”和“翻譯軟體”等)。這就要求用于詞典編纂的語言資料的儲存、組織與呈現方式要擺脫傳統的架構窠臼,利用應用程式程式設計接口(API),實作“一個資料庫,多款數字工具”(one database,various tools)的編纂意圖。以寫作(包括母語寫作和二語習作)為例,一方面,越來越多的人在電子裝置上寫作;另一方面,語言濫用與污染随處可見。紙質詞典已不受青睐,被動查檢型的寫作工具也無法提供切實幫助。面對這種現實,詞典編纂能夠提供什麼幫助?我認為,可嵌入式“寫作助手”的研發值得關注,它能讓寫作工具變成主動提供語言服務的産品,能在與使用者的互動中提供即時的語言使用指導。

技術革新背景下的詞典編纂創新

接下來,以我參與的一個數字詞典實踐項目(西班牙語版“寫作助手”)為例,分享一下我的實踐經驗。去年,我有幸到丹麥著名的數字詞典公司Ordbogen工作兩個月,該公司專注于語言服務、數字化教學材料、線上詞典和寫作助手的研發,做了很多有益的探索。我受邀參加“寫作助手”研發團隊,該團隊彙集了來自資訊科學、詞典學等多個學科的專家,共同探索如何應用人工智能驅動的語言模型GECToR(Grammatical Error Correction: Tag, Not Rewrite)來研發服務于寫作需求的數字新産品,該項目仍在進行中。這一模型利用神經網絡開發而成,已實作對英語語料的訓練,而且在網絡上可免費擷取。作為詞典學家,我主要參與了語料訓練、功能設計和使用者互動3個方面的工作。

其一,GECToR的語料訓練工作分為4個階段,包括:(1)西班牙語語料訓練(已完成);(2)添加源自詞典資料庫的合成資料(已完成);(3)添加半合成資料(進行中);(4)添加自然語言資料(尚未開始)。我的主要任務是幫助提升産品的使用者友好度,具體工作包括:(1)用西班牙語撰寫“文本片段”闡釋問題、給出建議;(2)撰寫“附加文本”,提示詞彙、文法、文體等知識;(3)将西班牙語對譯為英語、丹麥語、意大利語和漢語。

其二,基于對歐美國家已上市的“寫作助手”(如Grammarly、LanguageTool、ProWritingAid等)的調研和思考,我将“寫作助手”的功能設計歸納為6個方面:(1)識别功能,即發現寫作中可能遇到的問題;(2)糾錯功能,即為使用者提供替代選項;(3)預測功能,包括補全詞語拼寫形式、預測寫作中接下來可能出現的詞語;(4)轉化功能,即優化句法、調整文體等;(5)翻譯功能,即提供譯語對應詞;(6)查檢功能,即提供詞典資料庫檢索接口。我們正在研發的“寫作助手”(西班牙語版)已經實作了上述“預測”“翻譯”與“查檢”等功能,其他3個功能的開發也在推進中。為了實作上述功能,詞典學思維很重要:一方面,詞典資料庫内中繼資料的結構與形式必須要适應“寫作助手”對資料提取與融合的需求;另一方面,詞典釋義要實作充分的結構化處理。

其三,通過現有“寫作助手”的使用體驗與對比分析,我把它們展現出的交際性歸納為5個層級:(1)自動糾錯,不顧及使用者接受與否;(2)無解釋的建議;(3)附簡單解釋的建議;(4)附增補解釋的建議;(5)擴充解釋。我把前兩個層級的互動稱為“非友好交際”,中間兩個層級的互動稱為“友好交際”,最後一個層級的交際則屬于面向使用者深度學習的層級。此外,對于正在研發的“寫作助手”(西班牙語版),我們計劃通過更多測試來驗證、優化文本資料呈現方式的使用者交際友好性。

最後,我想談一下對數字辭書發展前景的看法。一方面,我們需要重新思考“詞典編纂”的角色轉變:(1)提供合成的詞典資料;(2)訓練語言模型;(3)提供背景詞典資料查檢;(4)與使用者互動。另一方面,我們也要重新思考“詞典編者”的角色轉變:(1)參與語言模型訓練;(2)建設“詞典資料庫”;(3)開發“交際資料庫”,提供短文本,為使用者提供更多語言使用建議。這裡,我想特别說明一下“詞典資料庫”與“交際資料庫”的差別:前者是基于詞條的資料庫,可用于提供詞典中繼資料資源;後者是基于問題的資料庫,可用于提供場景化語言服務。此外,人工智能技術為詞典編纂理念與技術革新所産生的影響已然顯現,但是,目前人工智能用于開發“類詞典”語言工具也非無所不能。比如,它需要沒有歧義的資料,才能提升語言服務效能。詞典編者需要與時俱進,付出跨學科合作實際行動,這是詞典學創新發展的必然路徑。

(本文首次發表在《語言戰略研究》2024年第3期)

技術革新背景下的詞典編纂創新