解密：依圖如何一年實作語音識别名額超巨頭玩家

12 月 11 日，擅長計算機視覺技術解決方案的依圖科技在北京公開展示了語音識别領域的最新技術成果，并表示将在近期開放依圖語音識别 API 接口以及部分測試資料集。同時，依圖科技還宣布，将基于其語音識别技術與微軟 Azure、華為推出聯合方案平台。

01 最優測試結果如何保證客觀性？

活動現場，依圖首先展示了其語音識别小程式「聽寫大會」在歌詞識别、飛機機艙混響環境下的播報識别結果，以及依圖語音識别 API 在公開資料集、依圖自有資料集、非公開資料集三類資料集上的平均錯字率（CER）表現。

測試結果均以橫向對比的形式展現，橫向對比的其他主流方案包括訊飛聽見、訊飛開放平台、雲知聲開放平台、阿裡一句話、騰訊 AI 平台、百度語音-遠場、百度語音-輸入法、百度語音-搜尋。

資料集是測試結果公正性的重要依據，為展現資料集的科學性和多樣性。依圖測試過程中涉及到的公開測試資料集包括：

全球最大中文國語資料庫 AISHELL1、AISHELL2（采用 iOS 系統，Android、Mic 性能類似，省略）、中文語音語料 THCHS30、PrimeWord、ST-CMDS；
依圖自有資料集包括安靜對話、混響資料集；
非公開資料集，即向第三方購買的資料集，包括語音助手場景、電話閑聊、電話客服、遠場演講、口音等場景的資料。

依圖科學家吳雙博士表示，該批測試完成于 2018 年 11 月底，資料覆寫了近 60 萬字、50 小時的語料，近場/遠場跨度在 20cm-10m，涵蓋智能音箱、手機等多種裝置，科技、醫療等超過 20 類話題領域。

在上述提到的所有測試資料集和測試場景中，依圖語音的平均字錯率表現均優于科大訊飛、百度等橫向對比的主流語音方案商的開放平台方案。字錯率是中文語音識别領域的關鍵性評估名額，一般認為字錯率在低于 3% 時不會影響可讀性，而超過 15% 則毫無可讀性。這兩個資料被視為是語音識别的兩條紅線。在不同場景下，不同算法的表現可能存在很大差異。

活動現場，橫向對比測試結果依次呈現在大螢幕上，引來在場諸多人士拍照。這在一定程度上展示了依圖在特定測試條件下的技術領先性，同時也反映出業界所謂的「成熟」中文語音識别方案還存在諸多提升和改進空間。

比如，在公開資料集 AISHELL-2 中，依圖短語音聽寫的字錯率為 3.71%，領先原業内領軍者約 20%。在手機進場（接近可用）場景下，依圖語音的字錯率為 3.6%，排名第二雲知聲開放平台字錯率為 4.2%，依圖語音領先雲知聲開放平台近 17%。

比如，在非公開資料集的電話場景中第一類「電話閑聊」場景下，隻有依圖語音和訊飛聽見（異步模型）在稍微接近 15% 字錯率的下限，即「勉強可用」。而排名靠後的阿裡雲智能語音、雲知聲開放平台、騰訊 AI 開放平台-WeChat、訊飛開放平台、百度開放平台遠場方案在電話閑聊、電話客服場景下均超過了 15% 字錯率，即「毫無可讀性」。

在遠場演講場景下，除依圖語音和訊飛聽見（異步模型）的平均字錯率達到可用容錯範圍外，阿裡雲智能語音、雲知聲開放平台、微信開放平台-WeChat 流式、百度開放平台等基本「全軍覆沒」，均明顯高于平均字錯率 15% 的下限。此外，從測試結果中也可以看到，各家算法在遠場演講場景下的表現落差較大。

有媒體人士評價，依圖如此掀開語音識别市場「遮羞簾」的做法真是耿直！

此外，在通用性層面，柱狀圖寬度越小，說明字錯率浮動範圍越小，算法的場景通用性越好。綜合各場景測試的結果，業界主流算法中，依圖和訊飛的算法字錯率浮動範圍相對較小。

上述檢測結果難免觸及其他友商的利益和技術權威性，業界不少人對其客觀性和公正性提出質疑，機器之心針對該類問題與依圖科學家吳雙博士向依圖進行了交流。值得注意的是，上述橫向對比方案均為各廠商的開放平台方案，并未完全代表各家在語音識别領域的綜合實力水準。

1、機器之心：測試結果采用自家測試的方案，在測試方法、測試裝置的公平性上如何保證？測試對象是否符合雙盲随機原則？

吳雙：依圖自有的資料集、算法 API 将在近期公開。在所有公開資料集上的測試結果均可複現上述結果。基于非公開的各家自有資料測試集上的不同測試結果，我建議大家都把資料集公開，用公開的測試資料集的結果展現水準，這樣大家的測試結果均可以被其他家測試驗證，公正性就有了保證。

2、機器之心：測試結果除了與軟體算法相關，硬體裝置，尤其是麥克風陣列排布影響到的拾音效果也可能間接影響語音識别的準确率。上述展示的測試結果都是基于同一款裝置嗎？

吳雙：上述測試涉及到了多種硬體裝置，比如智能音箱、手機以及其他硬體裝置。我們希望能夠覆寫更多硬體裝置。硬體方案的确會影響語音識别效果。但是面向不同的識别場景，我們都是調用同一套算法，同一套 API。

02 如何實作一年超越「訊飛」們？

相比計算機視覺技術的發展和落地，語音識别研究顯然起步更早，對應的玩家形态和市場格局也更為成熟。衆所周知地，科大訊飛在語音識别領域的積澱和商業化已有十餘年曆史，近幾年 BAT 玩家的湧入也來勢洶洶，接口免費、平台開放的政策接二連三。在看似已成定局的賽場上，依圖如何後來者「居上」？

談到語音識别領域的研發曆程，吳雙表示，大約是一年左右不到的時間，即去年底今年初投入力量進行語音識别方案的研發，但在語義了解層面，依圖已經有所建樹，比如在醫療領域，電子病曆了解的應用。

實際上，早在今年的一次公開活動上，依圖科技聯合創始人林晨曦曾接受相關媒體采訪時表示，依圖科技接下來會繼續進軍語音識别和自然語言處理，要在這兩個領域也做到超越人類水準。

相比語音識别領域已有的巨頭玩家，依圖在資料量積累和模型訓練時間等核心層面均不占據優勢。但是依圖卻在短短一年時間内，資料量相比巨頭有限的情況下，在部分測試集和核心名額上超過了前者。

對于其原因，吳雙認為，強化學習、對抗學習等技巧層面的政策大家都會跟進，做算法優化并沒有捷徑。在方法論和做事态度層面有依圖在視覺領域的經驗作為基礎。目前，依圖語音的表現是相對意義上的性能提升，平均算法性能領先 11%，在某些特定的場景下領先更多。

對于語音市場看似産品繁多，但真實體驗卻與宣傳效果存在差距的現象，依圖科技首席創新官、前 Google Research Scientist 呂昊博士認為主要原因有三，其一，業界缺乏系統性的标準測試、測試集，而覆寫多元度多場景的資料成本過高；此外，工業界語音識别的水準已經遠超過學術界，但與此同時，也缺乏體驗和比較的工具。

左為依圖科技首席創新官呂昊，右為華為智能計算管道合作部部長康鑫

活動現場，依圖方面還宣布了将聯合微軟推出語音開放平台，依圖的語音識别方案将在微軟雲 Azure 上線。依圖科技将聯合華為推出智能語音解決方案。此前，依圖還與華為聯合釋出了面向泛安防場景的智慧園區和視訊雲人像大資料解決方案。

活動現場，華為智能計算管道合作部部長康鑫談到，在華為的 160 個 ISV 中，依圖已經成為華為最頂級的 ISV 合作夥伴。從目前合作模式來看，依圖語音技術的落地方式主要面向 B 端客戶。

據公開資料顯示，依圖科技最近一輪融資在今年 3 月完成，紅杉資本中國、高瓴資本、高榕資本等投資方也持續跟投，該輪融資中依圖科技公司整體估值為 150 億人民币。

對于依靠人工智能第四波浪潮快速成長的獨角獸而言，經過 2018 年落地商業化的考驗之後，拓寬業務領域和加強解決方案的完整性成為提升競争力的關鍵。

可以看到的是，以視覺方案為主的依圖、雲從開始切入語音市場，而以語音方案為主的雲知聲則開始在圖像識别領域布局。業内人士表示，在智能家居、智能汽車、智能醫療等領域，未來的互動肯定是多模态的，不會是單一的語音、或者單一的圖像功能。

解密：依圖如何一年實作語音識别名額超巨頭玩家

01 最優測試結果如何保證客觀性？

02 如何實作一年超越「訊飛」們？

繼續閱讀

CSMA/CD1． CSMA/CD的概述2． CSMA 的工作原理3． CSMA/CD控制規程及特點4． CSMA/CD協定5． CSMA/CD的優點6．結束語

今日頭條iOS用戶端啟動速度優化技術調研實測資料

極大似然法(ML)與最大期望法(EM)

[HTML5]自定義屬性 data-* 和 jQuery.data 詳解

解碼器用于語義分割：資料依賴的解碼可以實作靈活的特征聚合

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告

cs231n斯坦福基于卷積神經網絡的CV學習筆記（一）KNN和線性分類器/分類器損失/反向傳播一，KNN圖像分類算法二，線性分類器三，線性分類器損失四，反向傳播五，神經網絡

C++ 第十五周報告1--《冒泡法排序》

2021年危險化學品經營機關安全管理人員考試題庫及危險化學品經營機關安全管理人員考試技巧

筆試面試題目：滑動視窗(二)

資料結構與算法（27）——排序（二）

Android電視機（機頂盒）初次開發的一些經驗分享

無人機--飛控科普

Dijkstra--簡易版（最短路徑）

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

hdu7108哈希