天天看点

《中国人工智能学会通讯》——1.2 问答与智能信息获取

问答系统作为智能表征的研究领域,几十年来一直受到学术界的关注,国际评测 TREC 历经十余年对问答系统从几个方面进行了评测[4] 。问答系统的发展杂问题的发展过程,逐步具有了更多的智能行为特性。这个过程并不是一个单纯的直线,而是反反复复螺旋式进步。早期的问答系统虽然可以回答特定类型的问题,但是覆盖度和鲁棒性都比较差,速度也比较慢,还不能很好地应用在真实的商业系统中。

互联网大数据的产生,使问答系统在几个方面获得了改善的机会。一个是信息源数据的丰富,使得从人工构建语料库发展到从互联网获取海量有针对性的语料,如问答社区,即时通讯软件等。另一个是知识库,从人工定义特定领域知识库,发展到大规模知识图 谱 的 构 建, 例 如 YAGO [5] 、Freebase [6] 、Google 的Knowledge Graph [7] 以及 NELL [8] 。这些知识库从知识工程的角度体系化地组织了人类关于世界的认知,广度和深度都达到了空前的地步,并且还在不断的发展中。此外,互联网还存在海量的多源异构信息,包括地理信息、用户的行为日志等。这些前所未有的信息内容可以用来构建用户模型,帮助系统理解用户意图,产生更加个性化的答案,改善用户体验。

然而,从另外一个角度,互联网时代给问答系统带来的最大改变是其在信息时代的角色转变。问答系统已经不仅仅是表现、测试计算机系统智能水平的平台,关注点从细节诸如解决事实性问题还是复杂问题,亦或是基于检索的还是基于数据库的转变为更加宏观与系统。问答系统作为信息查询 / 获取的入口,是一种公认的友好而自然的人机交互形式,一个信息服务的平台。互联网的发展使我们从数据缺乏的时代进步到信息丰富的时代,但是也带来了信息过剩的挑战。对于用户来说,麻烦已经不是找不到信息,而是信息太多,噪音太大。有效率地获取最符合用户意图的信息,即为所谓的智能信息获取已经互联网信息处理的重中之重的问题。智能信息获取最自然的手段是问答,而问答系统可以通过各种智能信息处理技术以知识库和互联网数据为背景,得到满足查询相关性、重要性、时效性等要求的、直截了当的答案,提高系统的鲁棒性、覆盖度及工作效率。以智能信息获取为目标的问答系统,既可以向通往图灵测试的道路迈出坚实一步,也是从人本的角度出发,满足用户需要,给予用户最好的智能体验的,具有非常重要社会效益的计算机系统。因而,问答系统完全从后台走到了前台,而当前成功经历了从特定领域到非特定领域,从事实性问题到复的问答系统,大多是从这条路线出发:首先对问答的形式、信息源进行分类细化,针对不同的问题类型进行问题解析、答案候选生成,以及答案排序等工作,涉及到自然语言处理、信息检索、知识计算、推理等众多人工智能相关技术,取得了很多的成就,并随着深度学习等新一代智能计算模型的发展而进步,有着美好的前景。