天天看點

市場占比 44%,IDC 最新報告:阿裡雲智能語音市場排名第一

市場占比 44%,IDC 最新報告:阿裡雲智能語音市場排名第一

近期,權威調研機構IDC釋出了《中國AI雲服務市場半年度研究報告》,就國内主要雲廠商的雲上AI服務進行了調研,包括人臉人體、圖像視訊、智能語音(ASR&TTS)、對話式AI、NLP、機器學習6大類别。其中,阿裡AI在智能語音、對話式AI、機器學習三大領域,獲得6個次元的第一,并以44%、57%、29%的市占率位列三大領域市場佔有率第一,領跑同類雲服務廠商。

市場占比 44%,IDC 最新報告:阿裡雲智能語音市場排名第一

作為較早布局雲上語音AI技術的企業,阿裡巴巴通過阿裡雲對外提供語音原子能力、行業模型及自學習平台等服務,給使用者「開箱即用」的行業語音解決方案。此外還推出語音識别、圖像識别、自然語言處理等多領域上百款細分AI産品。在達摩院的助力下,阿裡雲解決了AI研發的算法/算力瓶頸,加速了AI應用落地的程序。目前,阿裡雲語音已擁有5萬多家客戶,包括中移動、中央電視台、招商銀行、位元組跳動等,覆寫教育、金融、出行等數十個場景。

在IT基礎設施全面上雲的大潮下,AI産業結構正在發生巨大的改變。由于傳統AI服務成本高、周期長、個性化能力弱等特點,雲上擷取AI服務逐漸成為了企業的首選。雲+AI成為了加速AI技術大規模落地的重要推手,也成為了AI語音産業的新入場券。

那麼,基于雲的語音服務是如何發展的?雲上語音與傳統的語音服務有哪些差異?你該如何玩轉雲+語音?我們帶着這些問題,采訪了達摩院語音實驗室負責人鄢志傑。

1“雲必然會成為語音産業的新入場券”

鄢志傑在語音技術的研究經曆可謂「根正苗紅」,畢業于中國科學技術大學語音實驗室,專注于音識别、語音合成、語音互動、說話人識别驗證等領域的研究。畢業後在微軟亞洲研究院繼續語音方面的研究,之後加入了阿裡,擔任達摩院語音實驗室負責人。正是在阿裡的這段工作經曆,讓本來深耕于AI領域的他,看到了雲與AI結合的前景。他認為:“雲的出現,讓誕生了60多年的語音技術從少數人掌握的高端工具,變成了人人可用的平民技術,雲成為了語音産業的新入場券。”

縱觀語音技術的發展,可以看出這樣一個趨勢,即對細分場景的不斷「解鎖」。從最開始戴着耳麥去做簡單的語音識别,到通過指令去檢索一些簡單的資訊(如某家公司的股價),再到後面以Siri為代表的手機語音助手,到現在以智能音箱為代表的各種智能硬體裝置。語音已成為了智能裝置中的标準化互動入口,放眼未來萬物都可能通過語音來進行互動。

傳統的語音技術往往掌握在兩類公司手裡,一類是以作業系統起家的巨頭,如微軟。這類公司往往是從滿足自己作業系統對于殘障人士的支援為目的,加入了語音輸入的功能;第二類則是專業的語音技術廠商,如Nuance。這類公司的定位則是為其他大公司提供語音服務(這類公司很容易被這些大公司自己的語音技術部門所取代)。

這兩類廠商所提供的語音服務也大都是「标準化」的服務。由于行業的差異,使用者所需要的服務也千差萬别,一套「标準化」的服務很難滿足不同行業的需求。例如,同樣是客服呼叫中心,所面臨的客戶群體、對話内容、專業術語等截然不同。而為使用者提供個性化語音服務,正是雲上語音模式有别于傳統語音服務商的差別所在。

市場占比 44%,IDC 最新報告:阿裡雲智能語音市場排名第一

雖然「雲上語音」聽起來像是一個新模式,但在鄢志傑看來卻并非如此。還以客服呼叫中心為例,以往客服中心提供商需要到客戶的辦公所在地為他們提供服務,但現在,這種服務從底層運算存儲到工作頁面,都已實作雲化。在雲化的基礎上,供應商發現雲平台還可以提供AI的能力(如智能語音),是以造就了「雲上AI」的大規模落地。

簡單來說,「雲上語音」并非是一種「新模式」,而是基于雲服務的自然延伸。

2授人以魚,不如授人以漁

從另一角度來看,雖然雲上語音是基于雲服務的一種延伸,但在服務模式上卻有着本質的差别,總結起來一句話即「授人以漁」。

「授人以魚」的初衷,來自于前文提到的使用者對于個性化功能的需求。例如,在金融領域下還可細分為保險、證券、銀行等分支,一個标準化的「金融領域語音識别模型」是無法适用于多個細分分支的。

傳統的語音技術服務商走的是「自産自銷」模式,面向行業應用的個性化定制手段少、門檻高、周期長、成本高,導緻語音技術在産業落地應用中進展緩慢。

而雲上語音模式,則是将「自學習」能力開放給使用者。通過阿裡雲語音自學習平台,使用者可以在完全不了解語音語言算法的情況下,通過灌注行業資料,快速定制出一套自己專屬的語音模型。用鄢志傑的話說,這相當于把原來操作複雜的單反相機,變成了傻瓜相機,使用者隻要半按快門,阿裡雲就已經将相應的參數優化好了,這樣使用者就可以将全部的精力放在取景和構圖上了(即自身的業務上)。

不僅如此,阿裡雲語音自學習平台還具備以下幾個特點:

  • 1.自适應,通過對領域資料的使用和知識的灌注,自動将一個80分的模型優化到95分;
  • 2.優化速度快,借助于雲底層平台,模型優化可以做到分鐘級;
  • 3.全鍊路覆寫,适用于各種各樣的場景,無論雲上的産品還是私有化部署都可以使用;
  • 4.雲原生彈性賦能,雲上語音服務具備傳統語音服務所不具備的面向海量使用者提供服務的能力;
  • 5.多域環境支援,既支援SaaS級服務,讓使用者可以直接在平台上做優化;也支援PaaS級服務,使用者業務系統可直接進行內建。

除了語音自學習平台,達摩院語音實驗室還研發出了不少「黑科技」,例如KAN-TTS語音合成技術,這一技術讓合成音與原始音頻的接近程度空前地提高到了97%(傳統技術的接近值為85%-90%)。基于遷移學習及多種新型算法模型,隻需用手機錄音十分鐘,KAN-TTS即可根據發音人的聲音風格,快速生成高相似度的語音。目前,這一技術與其他技術一樣,被應用在了多個産品及服務中。

市場占比 44%,IDC 最新報告:阿裡雲智能語音市場排名第一

3「雲上語音」有哪些典型的應用場景?

“我們接觸到的終端使用者,如某某銀行,和傳統的語音服務提供商的終端客戶是一緻的。是以我認為不存在哪種客戶是隻适合傳統語音服務提供商而不适合雲上語音服務的。”當被問到“雲上語音适用于哪些場景“時,鄢志傑這樣說道。

在所有應用場景中,阿裡語音AI在呼叫中心、電信營運商、法庭庭審中的客戶認知度,排名第一。

此外,在2019年,阿裡語音AI還對全國首個虛拟人工智能配網排程員帕奇進行了支援。帕奇的「大腦」裡儲存着排程規程、安全規程、分析報告等數十萬字的文本材料;還有上百TB的裝置、人員、電網拓撲等基礎資料及5000小時語音資料。當帕奇發現電網故障時,會第一時間發出故障警告,電話聯系相關搶修專家,并準确計算出搶修專家到達搶修現場所需要的時間、導航路徑等。

帕奇上崗前,配網排程員每天需要接通100多個電話,通話超過200分鐘,實時監控500條資訊,配調早晚高峰期的電話同時呼入量高達40次,根本來不及接通,現場人員需要長時間等待。

而帕奇的出現則大大提高了排程的效率,他最多可以同時撥打200個電話,24小時不間斷工作,并準确地完成海量資料的監視工作。他的出現把現場人員的等待時間縮短到了1分鐘。更神奇的是,帕奇不僅能對國語對答如流,面對口音較重的老師傅,還能對杭州話、杭州蕭山話進行識别。

除了對外部客戶的支援,阿裡語音AI也應用在了很多阿裡的内部業務上,包括阿裡集團幾十個BU、近百個業務方。例如淘寶、天貓、支付寶、天貓精靈、釘釘、阿裡媽媽、1688、零售通、支付寶、書旗小說、UC浏覽器、誇克浏覽器、盒馬、菜鳥、大麥和高德等。

2019年4月,達摩院語音實驗室聯合高德地圖上線了「你好小德」語音助手,支援語音搜尋地點、規劃道行、資訊查詢等多項功能。2019年雙十一期間,阿裡語音AI支援了阿裡經濟體峰值近萬并發的智能外呼和導航業務,其中98%以上的電話客服都是由語音AI提供。這也進一步驗證了阿裡語音AI背後的超大規模并發支援能力,正因如此,達摩院的雲上語音技術,也在2019年被MIT Technology Review評為“2019年十大突破性技術”。

4結束語

根據《中國AI雲服務市場半年度研究報告》預測,2018年到2024年中國AI雲服務市場的複合增長率将高達93.6%。未來3-5年,已經部署的AI産品,也可能被新一代更智能的産品替代。這意味過去傳統AI/語音服務提供商的客戶,都有可能成為雲服務商的客戶。

正如IDC報告所言,“語音語義領域,使用者重視的是服務,能不能滿足客戶的個性化需求十分重要,另外服務态度也很重要。”隻有能針對使用者的個性化需求提供定制服務的,才能笑對未來的市場。

而對于已經在這波大潮中先行的阿裡語音AI來說,未來則會去開拓更多在現有技術下無法實作,卻具有高價值的語音場景,用「雲+語音」去解鎖更多的可能!

繼續閱讀