3 月 29 日,「语音智能与人机交互联合实验室」在北京成立,该实验室由中国人工智能公司出门问问与中科院自动化研究所模式识别国家重点实验室自然语言处理与机器翻译研究团队联合建立,将专注于自然语言理解、多轮对话管理、问答系统、机器翻译等人机语音交互核心技术研发领域。出门问问成立于 2012 年 10 月,是一家在语音识别、语义分析、垂直探索等技术领域具备自主研发能力的人工智能公司。根据此前路透社报道,于 2015 年 11 月出门问问完成 C 轮融资后的累计融资金额达 7500 万美元,投资方包括 Google 、红杉资本、真格基金、SIG 海纳亚洲、圆美光电、及歌尔声学。
「我们不能止步于产生需求时才进行研发,或是仅仅满足于照搬、挪用国外的新技术、开源算法。只有在探索前沿、核心算法上进行投入,我们才能够在人工智能领域实现突破。」出门问问创始人李志飞说。李志飞在美国约翰霍普斯金大学获得博士学位后,曾加入 Google 研究院从事机器翻译的研发工作。
基于这样的想法,出门问问对技术研究合作在经费投入也没有设置门槛和限制。「只要能做出比较有意思的成果,甚至对我们的技术不一定有直接的影响,都没有关系。我们是有情怀的,可能比较理想主义一点,但我们是真正希望能够做出一些创新的。」李志飞说。
事实上,能够促成这次为期三年的合作基础是,双方共同看好基于自然语言处理技术的人机交互趋势,且在研究资源方面能够实现优势互补。中科院自动化所模式识别国家重点实验室专注于机器翻译,而机器翻译是 NLP 技术最集中、最核心的应用,同时团队在基本自然语言处理方面的技术有非常扎实的研究成果,在国内甚至国际上都是十分领先的团队。而出门问问在成立之初就把眼光放在人工智能自然语言处理领域,并在两年前开始发力人工智能在智能硬件领域的商业化,先后发布了 Ticwatch 智能手表、Ticmirror 车载智能后视镜等 AI 落地产品,由此带来的研究优势是具备大量的用户、数据,可以构建端到端的系统,能够完成需要大量工程师、产品经理共同构建的工程方面的成果。
另一方面,在李志飞看来,企业做研究与科研机构有很大区别,大多数企业很难全力做比较长线的研究,作为创业公司要保证足够的前沿技术敏感寻求实验室共建是有效途径之一。他以深度学习的崛起作为案例说:「深度学习开山鼻祖 Geoffrey Hinton 曾在学界做了很多年相关研究,在 2007 年,当时我还在微软研究院语音识别组实习,他们就开始与微软进行合作,探讨把深度学习算法部署在微软系统里。直到 2012 年的时候,他们在语音识别领域做出了巨大的突破,之后 Google 才开始跟进。在美国,对于技术最早的探索大多还是在科研界。这也是国外很典型的一种模式。」
这次合作目标计划从搭建面向特定应用任务的自然语音处理系统开始,逐渐延展到场景构建和算法设计的创新,再到第三年设计具备演化拓展能力的算法和系统,推动合作企业的业务迭代。比如,基于自然语言的人机对话系统中,目前的瓶颈在于自然语言的理解以及上下文的对话机制,在听歌的场景下,用户说:「我想听周杰伦的歌」、「他有没有摇滚歌?」,在车载场景下,用户说「我要导航到国贸」、「找目的地附近的停车场」,这两处场景就存在一个比较通用的上下文指代的问题。
「我们一直以来的目标就是把语音交互做到三个比较大的应用场景里,即可穿戴、智能家居、智能车载。」李志飞介绍说,「未来发展的整个趋势就是无手无屏的语音交互,换句话说,就是在用手和用眼效率比较低的场景。在技术层面上来说,未来把物理世界的知识深度结合到自然语音交互也是一个趋势。和人类沟通一样,人机交互系统只有在拥有了知识的前提下,才能进行快速、深度、有效地沟通,这个过程涉及到知识表示、逻辑推理等问题。我们最核心的终极目标,就是打造一个无处不在的懂你的虚拟个人助理。」
研究目标之外,李志飞还希望可以在这次合作中摸索出一套产学有效合作对接的机制。过去有很多产学合作只实现了单方面的需求,比如企业支持学界进行研究,研究成果却并没有深度创新点进而作用于企业迭代,或者学界只为企业提供人力,实验室无法得到本质上的收获。只有构建一套既能够帮助科研机构解决实际有用、有意思的问题,同时可以帮助企业得到算法技术本身的提升的机制,才能使合作双方配合默契、有效,进而实现推动技术创新和产业发展的双重目标。
「这不是一个短平快的过程,要实现预期成果是一个长期的过程,需要保持耐心。」李志飞说,「事实上,很多学界研究人员对实际产品系统并不够了解,我们希望在这次合作中,他们可以花一些时间来了解我们的系统。这样他们就无需自己从头搭建一个系统,而是可以直接在我们基于工程人力、数据所快速完成的原型系统中,进行算法验证。我想,这也是研究里面比较有意思的地方。在独一无二的系统里解决独一无二的问题远比拿出一个很多年前的问题来琢磨有趣,也比把某些算法的准确率提高百分之五更能得到认同。我们的系统是基于自然语言的人机对话,是在移动场景下用户直接去使用的,是一个非常新的系统。在这里找新的方向,就好比开辟了一个新的城池,再在城池中去种菜,而非在老城里发明更好的种子。这样的研究不仅更容易出成果,也更能得到行业认可。」