天天看點

2秒定制AI聲音!文心一言又整大活兒:效果驚喜

作者:雷科技

小雷平時刷B站經常會看到有UP主釋出AI模仿明星唱歌的視訊,音色音準至少有6-7成的相似度,甚至部分訓練到位的AI模型能複刻出與明星幾乎一緻的聲音。除了唱歌外,這種功能還被廣泛應用于不同角色的配音,一個被投喂了足夠數量和時長的高質素材的AI大模型,絕對能達到以假亂真的程度。

五音不全的小雷十分向往這項技術,但苦于本地訓練模型的繁雜,一直沒有下定決心去訓練自己的AI聲音。恰巧近期百度文心一言上線了定制智能體專屬聲音的新功能,官方宣稱使用者隻要花費幾秒就能完成設定。

如此省時省力就能訓練出自己的AI聲音?帶着疑惑,小雷嘗試着建立專屬自己的「AI嘴替」。

建立“AI嘴替”很高效,但功能太有限

打開文心一言App,點選下方「+」号,我們就進入到智能體的建立界面。在聲音選項欄中,我們能給智能體選擇聲音特性。在官方聲音根據方言、性别、音色以及角色進行分類,提供了32種不同的聲音。但我們目标明确,還是來體驗下建立自己的聲音這一功能。

2秒定制AI聲音!文心一言又整大活兒:效果驚喜

圖源:雷科技制作,文心一言頁面

點選「建立我的聲音」,使用者需要用自然的語氣朗讀系統給出的文字,讓系統識别音色音準。經實測,識别過程僅需2-3秒,小雷的「AI嘴替」就正式建立成功。值得注意的是,系統在錄制前會對環境音進行短暫的識别,确認噪聲符合錄制要求後,才正式進入錄制環節。

不僅如此,我們還能對智能體的性格特征、口頭禅、個人經曆、親友關系、興趣愛好以及開場白,進行個性化定制,這些因素會影響智能體後續的交流表現。

2秒定制AI聲音!文心一言又整大活兒:效果驚喜

圖源:雷科技制作,文心一言頁面

話不多說,我們來看看文心一言在短時間内建立的AI聲音究竟能不能讓人滿意。開啟聲音播報功能後,小雷試着讓智能體給我介紹雷科技的相關資訊,先不說聲音,至少對雷科技的介紹還是比較全面的,除了公衆号168萬粉絲(已超過170萬)的資料有些過時外,其他描述大體一緻。

說回聲音,音色方面本人認為至少能達到8成的相似度,尤其是情緒、語氣的表現,差點讓小雷以為是自己在說話。或許是為了讓使用者能更好的聽清楚智能體的表達,整體語速稍慢,想讓使用者耐心聽完全部回答可能會有些難度。

對比傳統的文字表達,智能體語音回答的拟人度更高,在回答中加入了比較多的語氣詞,更接近人們日常交流的表達習慣。驗收完聲音品質後,小雷決定還是回歸到自己對AI嘴替的本質要求——唱歌,十分可惜的是,目前文心一言創造的智能體暫時不支援該項功能。随後小雷換了個角度,讓智能體朗讀歌詞,這次倒是成功了,雖然朗讀運用的是本人音色,但從呈現效果距離音樂确實還差點意思。

2秒定制AI聲音!文心一言又整大活兒:效果驚喜

圖源:雷科技制作,文心一言頁面

後續,小雷圍繞聲音進行了朗誦、念詩等測試,效果大差不差。大家可以了解為一個聲音狀态永遠穩定的自己,能讓他代替你完成許多基礎性的語言工作,但呈現效果與你錄制時的情感、風格和自然度有着極高的關聯性。因為小雷并不是從事播音專業,是以AI聲音的效果算不上特别好,如果使用者能提供更高品質的語音素材,或許文心一言能給到更好的回報。

總的來說,文心一言這項新功能确實給小雷帶來了驚喜,在傳統離線本地訓練的基礎上,通過文心大模型和語音合成大模型的大量語音訓練,讓AI聲音無論是生成效率,還是呈現效果都能讓人滿意,但其個人助理的定位讓其功能受到了一定限制,智能體無法提供類似唱歌等其他功能,使用者也無法進一步訓練AI聲音,讓AI聲音的表現效果更接近本人。

高品質AI聲音,還得靠高強度AI訓練

事實上,這是所有「快餐式建立AI聲音」的應用都會面臨的問題。同樣是個性化聲音定制服務,通義實驗室提供的服務則需要使用者錄制20句話,用于定制自己的AI聲音,整體效果與文心一言相差不大,效果上依舊存在瓶頸,關鍵原因正是輸入和訓練的素材不夠。

2秒定制AI聲音!文心一言又整大活兒:效果驚喜

圖源:魔搭ModelScope

大家日常聽到最多個性化定制聲音的場景,應該是語音導航、文字播報或者小說閱讀等方面。通常來說,從文本到聲音的技術要讓AI聲音達到合格标準,需要音源人在專業錄音棚錄制成百上千句的資料量,高規格的定制流程将絕大多數普通人對AI聲音的探索拒之門外。

而随着個性化語音合成(Personal TTS)技術的成熟,平台通過手機、電腦等常見錄音裝置擷取目标的少量聲音片段後,就能快速建構出目标的語音合成系統。與傳統定制聲音技術相比,僅需少量資料量是個性化語音合成的最大優勢。

無論是文心一言,還是通義實驗室,他們都隻需要極少的資料量,就能給使用者提供個性化聲音定制服務,大大降低了語音合成的定制門檻,将AI聲音普及給普通使用者。但有得必有失,TTS技術在降低聲音定制門檻的同時,也給這項功能的上限帶上了枷鎖。

根據魔搭ModelScope提供的産品邏輯圖,我們能看出TTS模型需要經過錄音檢測、資料處理、模型訓練、打包合成四個階段,最終形成我們的AI聲音。有限的資料投喂量讓AI聲音的語言邏輯、語音語調,更多依托于已經訓練完成模型資料,而使用者錄制的素材或許隻是更多作用在聲音表層,聲音靈魂仍是背後的大模型資料。

2秒定制AI聲音!文心一言又整大活兒:效果驚喜

圖源:魔搭ModelScope

作為參考,小雷又調查了本地訓練聲音模型的步驟。相比起文心一言、通義實驗室的便捷服務,本地訓練聲音模型的聲音效果上限要高得多,但需要付出的成本也是幾何倍的增加。

首先,使用者得準備一批高品質的幹聲音頻資料、一台具備一定性能的計算機、一個AI聲音開源項目,在經曆一系列資料處理、特征提取以及N輪訓練後,我們才能得到所需的AI聲音。

大家光看文字描述可能覺得也就那麼回事,實際上,光是音頻資料的收集就是一個大工程。這決定了AI聲音的音色、聲音特征。特别要注意的是,這裡的音頻資料指的是目标的幹聲,也就是要去除掉伴奏、雜音等一切背景聲,沒有專業裝置的使用者可以通過軟體實作。

當然,如果大家嫌麻煩也可以去模型工坊網站下載下傳已經訓練好的聲音模型,但肯定沒有還原自己聲音那麼有成就感就是了。

2秒定制AI聲音!文心一言又整大活兒:效果驚喜

圖源:mxgf.cc

經過無上限的高強度訓練後,最終就能達到前段時間網際網路上比較流行的AI孫燕姿效果,并且使用者還能自由決定AI聲音進行朗讀或唱歌等多種情景表達,不再局限于單一的表達形式。

大模型關聯,是AI聲音的下一個機會?

AI對聲音的影響已經深入到各個領域,從文字轉語音,到音樂,我們見證了許多有趣的AI聲音應用。前段時間,小雷體驗了文生音頻的新星——Suno,其高效高質的音樂生成方式令不少音樂人産生危機感。盡管現階段絕大多數的AI聲音類模型仍存在部分缺陷,但AIGC重構内容産業幾乎是必然。

AI聲音與AI音樂一樣,是普通人的自我表達。AI的作用更多是降低人們的創作門檻,令普通人也能實作幻想中的場景。目前諸多AI大模型還處于「孤島」的狀态,在雷科技看來,當單一的AI大模型發展到瓶頸階段,可能接下來就是不同類型大模型之間的有效關聯。

舉個簡單的例子,使用者通過ChatGPT生成想要的歌詞,由Suno将歌詞編制成曲并賦予音樂風格,最後将自己的AI聲音加入其中。當多個大模型建立連接配接,使用者要做的或許就是下達一個指令,就能創作出一首專屬自己的歌曲。

當然,目前AI大模型還是持續發展的階段。像文心一言、通義千問等國産大模型也在不斷疊代之中,此次小雷體驗的個性化聲音定制功能雖然在效率、品質方面已有不錯的表現,但在功能多樣性上還有巨大的進步空間。

或許在未來,文心一言的智能體可以突破助理定位,展現出不遜色于本地訓練大模型的表現效果,屆時AI聲音這一技術也能找到更多适用的場景,給使用者體驗以及音頻相關的行業帶來帶來翻天覆地的變化。

北京國際汽車展覽會(北京車展)将于4月25日-5月4日隆重舉行,本屆車展以“新時代 新汽車”為主題,是“汽車從電動化走向智能化”的風向标。

屆時,包括比亞迪、小米、AITO問界、小鵬、蔚來、理想、極氪、極越、長安深藍等頭部品牌将悉數登場,除新車型“大比武”外,自動駕駛技術的推進、智能座艙的演化和AI大模型與汽車的結合,都将是重要看點。雷科技旗下“關注電動車,更懂智能化”的賬号電車通将派出報道團前往北京現場,進行一線專業報道,敬請關注。

2秒定制AI聲音!文心一言又整大活兒:效果驚喜

繼續閱讀