两年前,阿里巴巴与四川大学、美国加州大学伯克利分校、中国国家图书馆、浙江图书馆跨界协作,发起「汉典重光」项目,致力于寻觅海外流散的中国古籍数字化,推动其以数字化方式“回归”,让所有人都能亲近古籍。
昨天,我们在国家科技馆向大家汇报了项目最新进展:
已经完成首批20万页中文古籍善本数字化回归,这批古籍来自加州大学伯克利分校东亚图书馆,包含40多种罕见的宋元珍本。
在四川大学历史文化学院的陈力教授和王果副院长、加州大学伯克利分校东亚图书馆馆长周欣平等诸多专家学者与我们的共同努力下,汉典重光研发的古籍识别系统以97.5%的准确率,把20万页古籍从扫描图片变成在线文本,沉淀了覆盖3万多字的在线古籍字典。
经过几轮迭代,现在系统已经能对上百本古籍作批量识别。
汉典重光平台上线了几项基础功能:古籍数字化交互式训练、古籍全文内容检索、古籍汉字字典。
所有人都可以体验这个平台,并将你的反馈告诉我们:
特别要说明的是,这个平台属于全社会。
达摩院院长张建锋已经宣布,今后,汉典重光古籍数字化平台将捐赠给权威公共机构长期运营。
20万页古籍不过沧海一粟,一切只是刚刚开始。想实现数字时代的“书同文”梦想,要做的事还很多。
阿里会在古籍数字化工作上持续投入人力物力:
· 通过与美国、欧洲、日本、韩国等有影响力的图书馆合作,扩大古籍回归的数量;
· 不断研发古籍数字化技术,提升古籍识别系统的准确率与效率,打造更多方便实用的古籍研究工具。
在昨天发布会上,
中国国家图书馆副馆长、国家古籍保护中心副主任张志清表示:
古籍数字化是个非常复杂的跨学科课题,涉及到古籍影像文本的分类标引、检索、挖掘、关联等多方面信息技术的应用,需要技术专家与人文学者密切配合才能实现,“古籍数字化呼唤高科技企业参加”。
四川大学校长、中国工程院院士李言荣说:
四川大学与加州大学伯克利分校、阿里巴巴联合建立「汉典重光」平台,创造性地开展古籍AI技术的研发和转换应用。真正聚焦和解决我国古籍文献因为版本多元、字体多变、印刷多样造成的识别难、阅读难、理解难和普及难的问题。
全国政协副主席、九三学社中央委员会常务副主席邵鸿指出:
这是一项具有重要意义的文化盛举和文化基础建设工程:2007年,国家 “中华古籍保护计划”启动,要求积极利用各种方式将海外所藏中华典籍复制回国。「汉典重光」让流失海外的文化财富以数字化形式回归祖国并实现再生性保护,是对中华古籍保护计划的有力支持,同时也将大大提升我国古籍保护水平。
专家领导的关注支持将推动我们不断努力。
汉典重光是一个开放的平台,不止针对海外古籍,拥有珍贵文献的同人、机构也可以在平台上传文献,并由达摩院技术将其数字化,丰富平台内容。
最近两天,我们已陆续接受到许多民间藏书家、藏书机构的咨询。
特将联络邮箱公布于此:
感谢社会各界对这一事业的关注和支持。
古籍浩如烟海,古籍数字化是一个宏大且漫长的工程,需要各方力量持之以恒不断突破,每一条涓涓细流终将汇聚成传承历史与文明的浩瀚海洋。