天天看點

重大技術持續突破,科大訊飛SMART-TTS系統讓機器人擁有喜怒哀樂

作者:3C毒物

如何讓機器的聲音媲美人類?這是AIGC領域需求量大、技術門檻高的難題。11月18日,2022科大訊飛全球1024開發者開幕,在平台新品釋出會上,科大訊飛AI研究院副院長高建清表示,科大訊飛在語音合成技術領域取得重大突破,多風格多情感合成系統SMART-TTS,可以讓語音合成從簡單的資訊播報,“變身”為具備喜怒哀樂情感的語音助手。

重大技術持續突破,科大訊飛SMART-TTS系統讓機器人擁有喜怒哀樂

高建清表示,SMART-TTS系統充分利用了文本和語音的‘無監督預訓練’,實作了從文本到聲學特征、再到語音的端到端模組化。

SMART-TTS系統可提供“高興、抱歉、撒嬌、嚴肅、悲傷、困惑、害怕、鼓勵、生氣、安慰、寵溺”等11種情感,每種情感有20檔強弱度不同的調節能力;也能提供聲音的創造能力,如停頓、重音、語速等,可以根據自己喜好調節,真正實作了合成系統媲美具備個性化特點的真人表達能力。

重大技術持續突破,科大訊飛SMART-TTS系統讓機器人擁有喜怒哀樂

比如當人們在林蔭路漫步時,機器人可以用字正腔圓的“播音腔”播報新聞;當人們結束一天工作準備入睡時,機器人可以用輕聲細語朗讀散文;當人們驅車上班時,機器人可以用最喜歡的歌手聲音告訴大家走哪條路不堵車;當人們和家人一起觀看紀錄片時,機器人可以為片中不同人物配音。人機互動表達自然、情感飽滿。

目前,訊飛有聲APP和訊飛開放平台都開放了SMART-TTS語音合成系統,開發者可以在訊飛有聲直接下載下傳體驗,或在開放平台進行調用。

同樣隸屬于AIGC範疇,在聲音和虛拟形象生成技術方面,科大訊飛實作了語義可控的聲音、形象生成,語義驅動的情感、動作表達。

比如:當人們輸入“一頭長發”時,SMART-TTS系統智能生成溫柔大方的女性形象,聲音端莊又不失甜美;輸入“英俊潇灑”,會生成有一些商務範的男生形象,聲音略帶磁性。

此外,訊飛還實作了語音語義驅動的動作合成,通過對語音節奏、韻律體會和語義了解,虛拟人可以随時、流暢地切換動作,擁有更加自然的肢體語言。“與傳統動作庫相比,這套語義驅動的系統在動作拟人度及契合度方面,有明顯的效果提升。”高建清表示。

同時,2022年科大訊飛科大訊飛在互動系統的認知關鍵技術也取得突破性進展。

重大技術持續突破,科大訊飛SMART-TTS系統讓機器人擁有喜怒哀樂

今年以來,依托科大訊飛建設的認知智能國家重點實驗室相關團隊在認知智能技術突破方面奪得3項國際冠軍——在常識推理挑戰賽CommonsenseQA 2.0中重新整理機器常識推理水準世界紀錄,在科學常識推理挑戰賽OpenBookQA中以準确率94.2%的絕對優勢奪冠,在常識推理挑戰賽QASC中以多模型準确率93.48%、單模型準确率92.07%奪冠,後兩項比賽更是超越人類平均水準。

随着核心源頭技術創新和系統性創新的持續突破,AI擁有更加“智慧”的語義了解和對話生成能力。

“好的人機互動系統,在開放式的場景下要具備深度了解能力,并能了解互動對象進而發起主動的對話。”高建清說,圍繞認知智能技術,訊飛實作了于語義圖網絡的開放場景語義了解,基于事理圖譜的對話管理,基于知識學習的可控對話生成。

繼續閱讀