天天看点

技术革新背景下的词典编纂创新

作者:永大英语

感谢您关注“永大英语”!

技术革新背景下的词典编纂创新

技术革新背景下的词典编纂创新

斯宛·塔普

词典编纂正在经历“身份危机”。挑战来自3个方面:其一,新技术的不断涌现及应用正对词典编纂的几乎每个方面都产生重要影响。其二,词典出版的商业模式逐渐落伍。得益于印刷技术而发展起来的传统词典资助出版模式,已不能适应数字时代的新发展,作为文化实践的词典编纂正在面临严峻挑战。其三,来自其他类型信息源(如搜索引擎、机器翻译程序及应用)的竞争不断增加。我们或许可以把这些竞争解读为数字时代背景下用户对纸质词典质量、关联性与可及性的无声批评。词典编纂亟须“革新”,以避免陷入更深的危机。“革新”一词,不仅仅意味着方法与技术的提升,更是指对整个领域的全新变革。从技术赋能词典编纂的角度而言,“技术革新”之于词典编纂,不仅意味着采用新方法和新技术改进编纂过程,也意味着以更新颖、更友好的方式向目标用户呈现词典,还意味着研发全新的词典产品。基于我所参与的数字词典项目,下面从“理念”“实践”与“反思”3个方面与中国同行分享我的认识。

首先,就理念而言,何为“词典编纂现代化”?我认为,它意味着编者的精力应从专注编纂词典转向致力于建设和应用词典数据库。换言之,词典编者生产的首要产品不应再是词典文本,而是存储在数据库里的词典数据。这些数据既可以纸质辞书的形式呈现给用户,也可嵌入到数字化学习工具中(如“电子阅读器”“写作助手”和“翻译软件”等)。这就要求用于词典编纂的语言数据的储存、组织与呈现方式要摆脱传统的框架窠臼,利用应用程序编程接口(API),实现“一个数据库,多款数字工具”(one database,various tools)的编纂意图。以写作(包括母语写作和二语习作)为例,一方面,越来越多的人在电子设备上写作;另一方面,语言滥用与污染随处可见。纸质词典已不受青睐,被动查检型的写作工具也无法提供切实帮助。面对这种现实,词典编纂能够提供什么帮助?我认为,可嵌入式“写作助手”的研发值得关注,它能让写作工具变成主动提供语言服务的产品,能在与用户的互动中提供即时的语言使用指导。

技术革新背景下的词典编纂创新

接下来,以我参与的一个数字词典实践项目(西班牙语版“写作助手”)为例,分享一下我的实践经验。去年,我有幸到丹麦著名的数字词典公司Ordbogen工作两个月,该公司专注于语言服务、数字化教学材料、在线词典和写作助手的研发,做了很多有益的探索。我受邀参加“写作助手”研发团队,该团队汇集了来自信息科学、词典学等多个学科的专家,共同探索如何应用人工智能驱动的语言模型GECToR(Grammatical Error Correction: Tag, Not Rewrite)来研发服务于写作需求的数字新产品,该项目仍在进行中。这一模型利用神经网络开发而成,已实现对英语语料的训练,而且在网络上可免费获取。作为词典学家,我主要参与了语料训练、功能设计和用户互动3个方面的工作。

其一,GECToR的语料训练工作分为4个阶段,包括:(1)西班牙语语料训练(已完成);(2)添加源自词典数据库的合成数据(已完成);(3)添加半合成数据(进行中);(4)添加自然语言数据(尚未开始)。我的主要任务是帮助提升产品的用户友好度,具体工作包括:(1)用西班牙语撰写“文本片段”阐释问题、给出建议;(2)撰写“附加文本”,提示词汇、语法、文体等知识;(3)将西班牙语对译为英语、丹麦语、意大利语和汉语。

其二,基于对欧美国家已上市的“写作助手”(如Grammarly、LanguageTool、ProWritingAid等)的调研和思考,我将“写作助手”的功能设计归纳为6个方面:(1)识别功能,即发现写作中可能遇到的问题;(2)纠错功能,即为用户提供替代选项;(3)预测功能,包括补全词语拼写形式、预测写作中接下来可能出现的词语;(4)转化功能,即优化句法、调整文体等;(5)翻译功能,即提供译语对应词;(6)查检功能,即提供词典数据库检索接口。我们正在研发的“写作助手”(西班牙语版)已经实现了上述“预测”“翻译”与“查检”等功能,其他3个功能的开发也在推进中。为了实现上述功能,词典学思维很重要:一方面,词典数据库内元数据的结构与形式必须要适应“写作助手”对数据提取与融合的需求;另一方面,词典释义要实现充分的结构化处理。

其三,通过现有“写作助手”的使用体验与对比分析,我把它们体现出的交际性归纳为5个层级:(1)自动纠错,不顾及用户接受与否;(2)无解释的建议;(3)附简单解释的建议;(4)附增补解释的建议;(5)扩充解释。我把前两个层级的互动称为“非友好交际”,中间两个层级的互动称为“友好交际”,最后一个层级的交际则属于面向用户深度学习的层级。此外,对于正在研发的“写作助手”(西班牙语版),我们计划通过更多测试来验证、优化文本数据呈现方式的用户交际友好性。

最后,我想谈一下对数字辞书发展前景的看法。一方面,我们需要重新思考“词典编纂”的角色转变:(1)提供合成的词典数据;(2)训练语言模型;(3)提供后台词典数据查检;(4)与用户互动。另一方面,我们也要重新思考“词典编者”的角色转变:(1)参与语言模型训练;(2)建设“词典数据库”;(3)开发“交际数据库”,提供短文本,为用户提供更多语言使用建议。这里,我想特别说明一下“词典数据库”与“交际数据库”的区别:前者是基于词条的数据库,可用于提供词典元数据资源;后者是基于问题的数据库,可用于提供场景化语言服务。此外,人工智能技术为词典编纂理念与技术革新所产生的影响已然显现,但是,目前人工智能用于开发“类词典”语言工具也非无所不能。比如,它需要没有歧义的数据,才能提升语言服务效能。词典编者需要与时俱进,付出跨学科合作实际行动,这是词典学创新发展的必然路径。

(本文首次发表在《语言战略研究》2024年第3期)

技术革新背景下的词典编纂创新