本地语音识别IC应用中的主要问题

2020-11-12 23:50:00

目前智能家居已经进入到“声控时代”，许多家庭中也已经采购了一些智能家居设备。但在许多场景下，智能家居的简单操控并不需要联网控制，为了能够实现更好的人机交互，由用户本地操控将更加方便，因此本地离线语音将不可或缺。同时针对实现本地离线语音的IC而言，面对如今复杂的使用场景也提出了更高的要求。

在用户使用本地离线语音时，由于各地方言及口音的不同，同时在环境中还存在了一些噪音，如何有效的识别用户的唤醒指令，同时避免一些误操作？回复：目前的离线语音识别是一套完整的系统，上海华镇的离线语音识别芯片包括了声学前端处理算法（远场拾音、麦阵、语音增强、波束成型、降噪、回声抑制等）和语音识别算法，环境中的噪音，通过声学前端处理，处理后干净的声音再送到语音识别引擎里处理，确保唤醒识别的准确性。误唤醒这一块，目前华镇的语音唤醒引擎通过了百度测试规范严苛的测试，误唤醒可以做到<4次/24小时。

而在设备语音被唤醒后，需要准备识别用户叙述的指令词，但由于指令词数量较多，如果与唤醒词一样做训练，将会极大提升工作量，因此如何有效提升对用户指令词的识别？回复：华镇的语音识别引擎采用了TDNN的语法识别算法，后台有完整的声学模型（训练了各种口音、各个年龄层的普通话的远近场录音），大词汇量的识别指令，文字编辑后和声学模型生成语法文件，语音识别时，到语法文件中去做搜索，所以修改指令会非常方便。华镇的语音大脑6291模组，支持用户动态更新识别指令集。

针对目前市场中的OTP ROM、FLASH ROM 和 EEPROM，在室内的智能家居使用场景中该如何选择？同时在放音时间上，通常都会控制在多少时间内最为合适？回复：目前语音控制智能家居场景里，提示音部分都是存储在Flash里，每句提示音都相对较短，在5秒以内。

在众多本地离线识别IC中，性价比将成为用户选购的首要标准，有哪些方式能够有效的降低语音本地识别IC的成本？回复：成本的下降有很多关键因素，主要是芯片，外围的电路也很重要，还有就是算法的演进，占用的算力会越来越少。如今芯片集成度越来越高，集成了ADC/DAC/RAM/ROM，外围电路会比较简单，整体BOM成本也会很低。算法的迭代和成熟，将很多消耗算力的计算，通过语音识别专用芯片里的硬件加速来完成（比如DSP、NPU），这些配合算法的专用语音识别芯片的出现，也会进一步降低成本。

在通过本地离线语音设备来控制其他设备时，将有哪些低成本可靠的方案可以实现？回复：集成有离线语音识别芯片的设备控制其他设备时，目前主要是通过外置IoT模组来实现，比如WiFi、BLE、RF433、Zigbee、红外、2.4G等，以后的发展趋势，离线语音识别+IoT会逐步融合，硬件上集成在一起，也就是最近大家热炒的AIoT方案。

本地语音识别IC应用中的主要问题

继续阅读

Javascript构建Bingo卡片游戏

JavaScript的那些坑之事件代理事件代理事件阶段

javascript的for (var i in data)慎用javascript中的for (var i in data)谨慎用

笔试面试题目：滑动窗口(二)

数据结构与算法（27）——排序（二）

tab鼠标经过菜单切换

vue （vue2.0）使用总结(从大体结构总结)

vue搭建过程及出现问题

/\B(?=(?:\d{3})+$)/g 一条令人费解的正则表达式

Dijkstra--简易版（最短路径）

适用于JavaScript的ECMAScript 2020规范向前发展

GitHub连夜封杀！这份阿里 10W 字内部 Java 字面试手册到底有多强？

JS生成uuid的四种方法

layui多任务上传添加进度条

hdu7108哈希