目前智能家居已经进入到“声控时代”,许多家庭中也已经采购了一些智能家居设备。但在许多场景下,智能家居的简单操控并不需要联网控制,为了能够实现更好的人机交互,由用户本地操控将更加方便,因此本地离线语音将不可或缺。同时针对实现本地离线语音的IC而言,面对如今复杂的使用场景也提出了更高的要求。
在用户使用本地离线语音时,由于各地方言及口音的不同,同时在环境中还存在了一些噪音,如何有效的识别用户的唤醒指令,同时避免一些误操作? 回复: 目前的离线语音识别是一套完整的系统,上海华镇的离线语音识别芯片包括了声学前端处理算法(远场拾音、麦阵、语音增强、波束成型、降噪、回声抑制等)和语音识别算法,环境中的噪音,通过声学前端处理,处理后干净的声音再送到语音识别引擎里处理,确保唤醒识别的准确性。误唤醒这一块,目前华镇的语音唤醒引擎通过了百度测试规范严苛的测试,误唤醒可以做到<4次/24小时。
而在设备语音被唤醒后,需要准备识别用户叙述的指令词,但由于指令词数量较多,如果与唤醒词一样做训练,将会极大提升工作量,因此如何有效提升对用户指令词的识别? 回复: 华镇的语音识别引擎采用了TDNN的语法识别算法,后台有完整的声学模型(训练了各种口音、各个年龄层的普通话的远近场录音),大词汇量的识别指令,文字编辑后和声学模型生成语法文件,语音识别时,到语法文件中去做搜索,所以修改指令会非常方便。华镇的语音大脑6291模组,支持用户动态更新识别指令集。
针对目前市场中的OTP ROM、FLASH ROM 和 EEPROM,在室内的智能家居使用场景中该如何选择?同时在放音时间上,通常都会控制在多少时间内最为合适? 回复: 目前语音控制智能家居场景里,提示音部分都是存储在Flash里,每句提示音都相对较短,在5秒以内。
在众多本地离线识别IC中,性价比将成为用户选购的首要标准,有哪些方式能够有效的降低语音本地识别IC的成本? 回复: 成本的下降有很多关键因素,主要是芯片,外围的电路也很重要,还有就是算法的演进,占用的算力会越来越少。 如今芯片集成度越来越高,集成了ADC/DAC/RAM/ROM,外围电路会比较简单,整体BOM成本也会很低。 算法的迭代和成熟,将很多消耗算力的计算,通过语音识别专用芯片里的硬件加速来完成(比如DSP、NPU),这些配合算法的专用语音识别芯片的出现,也会进一步降低成本。
在通过本地离线语音设备来控制其他设备时,将有哪些低成本可靠的方案可以实现? 回复: 集成有离线语音识别芯片的设备控制其他设备时,目前主要是通过外置IoT模组来实现,比如WiFi、BLE、RF433、Zigbee、红外、2.4G等,以后的发展趋势,离线语音识别+IoT会逐步融合,硬件上集成在一起,也就是最近大家热炒的AIoT方案。