<b>1.
什么是特定人语音唤醒</b>
人的语音中含有大量的信息,除了语音内容(说了什么)外,还有语种(中文、英语)、身份(张三、李四)、情绪(平静、开心)等信息。
特定人语音唤醒,就是通过识别语音中所含的内容和人的身份信息,来实现特定人语音唤醒功能。这是一种较为新颖、具有一定安全性、便捷性和趣味性的功能,同时可以增强个性化体验。在yunos语音助手中,就应用了此功能。此时机主可以通过“你好小云”这个语音口令,解锁手机并且唤醒yunos语音助手。
和常见的语音唤醒相比,特定人语音唤醒功能不仅要求说对唤醒口令、还会判断是谁在说出这个口令。一旦口令不对或者身份不对,则会拒绝解锁手机和唤醒yunos语音助手。
<b>2.
特定人语音唤醒的基本框架</b>
特定人语音唤醒方案整体框图如下:
语音唤醒使用之前需要一个初始设置,特定人语音唤醒也一样,这是让智能设备认识用户自己声音的过程,初始设置在这里称之为“注册”,对应于模式识别的训练过程。默认情况下,用户根据页面提示,说出三遍“你好小云”就可以完成初始设置。注册完了之后,用户就可以使用特定人语音唤醒了。使用时,只有预设的语音口令内容、说话人身份都匹配的时候,手机才能解锁或者打开特定程序。
<b>3.
分层次gmm(higmm)模型</b>
除了vad(静音检测)、特征提取、评分等模块之外,模型是是整个方案中的关键。为了实现同时完成语音唤醒和特定人判别,我们设计了一个分层次gmm(higmm)方案。模型训练如下图所示。
其中,需要完成的步骤有:1. 训练一个和说话人无关、内容无关的全局gmm模型;2. 根据注册数据,训练一个特定人、和内容无关的gmm模型;这一步的gmm模型,可以根据最大后验准则,用全局gmm和训练数据获得;3. 根据注册数据,训练一系列的特定人、特定内容的gmms。这个过程中,首先需要把整个句子合理地切分成几个语音段,对于每个语音段,根据2的gmm,训练一个gmm。由于每一个语音段都表示了特定说话内容因此训练得到的gmm,代表了特定人、特定文本内容;gmm序列组合起来,则代表了特定人、特定口令内容。
<b>4.
特定人语音唤醒应用</b>
目前云手机上,yunos语音助手集成了特定人声纹唤醒功能,用户可以通过“你好小云”唤醒yunos语音助手。
yunos语音助手声纹功能还可以“被锻炼”,随着唤醒次数增多,可以使yunos语音助手更熟悉用户的声音,并且减少他人的声音或者噪声带来的误操作。
以后,具有特定人语音唤醒功能的手机,还可以有更多的应用。比如:当你找不到自己手机的时候,你喊出“你好小云”就能将手机唤醒,此时手机可以响铃,做出“我在这里”的回应。另一种用途是当你想听自己喜欢的歌的时候,喊出“hey,
小y,
放首歌”,此时设备根据说话人的身份,播放个人喜欢的音乐。