天天看點

搜狗知音引擎再進一步,實作語音實時翻譯

搜狗在烏鎮網際網路大會上釋出了實時翻譯技術,此後,搜狗語音互動中心技術負責人陳偉詳細介紹了背後的技術架構和搜狗的多項核心技術。

這次的語音實時翻譯技術是在

搜狗知音引擎

這個大架構下,通過知音引擎搜狗希望提供從聽到說,能了解會思考的能力,涵蓋了語音識别、語義了解和語音合成三個主要的能力,而知音引擎提出的口号是「更自然的語音互動」。「其中『更自然』分為三個層次,在識别這塊,我們希望在人機使用語音進行互動的過程中,更加自然,接近人和人互動的方式。同時也希望我們的引擎更多了解人語言上的需求,而在合成上則希望表達更加自然。」陳偉表示。

搜狗知音引擎再進一步,實作語音實時翻譯

搜狗知音引擎圖示

從 8 月份首次釋出開始,搜狗知音引擎有了新的進展。基于已有的深度學習平台和技術搭建了自身的語音實時翻譯技術。整個技術架構包括了語音識别、機器翻譯兩個大的方向,整個系統并不是簡單的技術堆砌,而需要做非常多的細節優化以及系統調優,主要包括了語音斷句、語音識别、文本斷句以及機器翻譯。

搜狗知音引擎再進一步,實作語音實時翻譯

搜狗語音實時翻譯

首先是語音斷句,會通過能量檢測和基于深度學習模型的方式進行斷句,通過對語音信号中每一幀進行語音 (用 1 表示) 和靜音 (用 0 表示) 的判斷,生成一個很長的包含 0 和 1 的判決序列。之後要對判決序列進行平滑處理,最終生成的序列中在 0 和 1 交界的地方就可以認為是一個語音的邊界,作為後面斷句非常重要的依據。陳偉表示:「語音斷句有幾個好處,靜音片段不進行語音識别,大大提升解碼效率。同時語音片斷可以分割成多句并行識别,大大提高了語音識别的效率。」

搜狗知音引擎再進一步,實作語音實時翻譯

語音斷句

其次就是語音識别,就是把語音轉化成文本,其中語音識别會非常依賴兩個模型,一個是聲學模型,描述了發音單元對應的模型和聲音信号之間的相似性。另一個是語言模型,描述了識别結果中詞和詞之間連接配接的可能性,進而保證了識别輸出結果更加通順、流暢,符合正常的發言習慣。

搜狗知音引擎再進一步,實作語音實時翻譯

從 2012 年開始,搜狗開始組建語音團隊,使用的聲學模組化技術一直在演進,目前比較穩定的線上系統是 CLDNN 系統,陳偉說:「它集合了三種不同結構,是一個複合的神經網絡結構。CNN 可以對變換起到不變性的作用,是以它能夠比較穩定地提取出一些恒定的特征。第二塊是長短時記憶模型,能夠把非常長的上下文,曆史或者未來的資訊融入到目前的識别中來。還有一塊是 DNN,可以提取深層的抽象的特征。這三層複合式結構融合在一起,形成了目前我們使用的主流結構。」

深度學習技術的不斷發展,聲學模型訓練流程逐漸從複雜變的簡單,端到端的技術被逐漸使用,比如 CTC 的引入,聲學模組化的單元從之前的共享狀态擴大到了 cdphone、音節或者字,CTC 的引入可以省去之前煩瑣的模型訓練過程。「我們線上主要在用的結構就是 CLDNN+CTC,目前這個模型的準确率無論從第三方的評測、還是廠商對比評測都已經證明了目前我們在語音識别技術方面的領先性。」陳偉表示。

搜狗知音引擎再進一步,實作語音實時翻譯

語音識别的聲學模型

除了聲學模型,在語言模型方面,ngram 模型使用了固定窗長的方式,目前詞隻和前面固定長度的曆史詞有關系,而搜狗在語言模型上使用了 RNNLM 模型,思考建立目前詞和曆史所有詞之間的聯系,通過對聲學模型和語言模型的共同優化,語音識别效果得到了比較大的提升。

搜狗知音引擎再進一步,實作語音實時翻譯

語音識别的語言模型

在語音斷句、語音識别之後的第三個階段是文本斷句。首先通過内容平滑把一些沒有具體意思的詞去掉使句子變得比較通順。然後通過規則和模型兩種方法進行語句劃分和加标點。陳偉認為,在語音識别和翻譯之間,最為關鍵的一個橋梁就是文本斷句,這個子產品是搜狗的語音同傳技術可以應用的重要原因。而另外一個保證翻譯做到實時的技術是輸出判斷,使用者一直在說話,系統需要決定語音識别輸出結果中哪部分可以送給翻譯,哪一部分需要暫時緩存下來暫時不進行翻譯,這也是搜狗語音同傳在今後需要着重優化和改善的功能。

第四部分是機器翻譯,以前的方法更多是把整個的翻譯切分成單詞、短語,把中文、英文短語之間的映射關系建立起來,對應關系建立起來以後,使用語言模型再對譯文進行詞序或者短語順序的調整,保證譯文盡可能的通順,這就是統計機器翻譯的技術。

近三年來基于神經網絡的機器翻譯技術逐漸成為主流,通過端到端的方法将翻譯平行語料進行了映射,整個架構分為了編碼器-注意力機制-解碼器的結構,在同傳技術裡,搜狗用到了雙向 GRU 技術建構編碼端的結構。通過 attention 機制在源端和目标端文本間進行對齊并生成目前時刻的句子級向量表示,并送至解碼端,解碼端逐詞解碼輸出翻譯結果。

搜狗知音引擎再進一步,實作語音實時翻譯

搜狗的NMT

「從翻譯本身來講,之前大家用的那套翻譯模型,跟我們以前在輸入法上用的打字模型差不多,你打一堆拼音,拼音怎麼轉化成中文,而翻譯就是你打一個英文,這個英語怎麼轉化成漢字,用到的技術就叫統計機器翻譯 SMT」,搜狗語音互動技術中心負責人王硯峰表示,「現在的方法是基于神經網絡,和以前的統計機器翻譯是完全不同的技術流派。我們所說的深度學習改進比較大的三個領域,第一是圖像識别,第二是語音識别,第三很有希望的就是機器翻譯」。

對于和谷歌不久前釋出的神經機器翻譯技術,搜狗和谷歌使用的模型差別不大,但谷歌的神經網絡比較深,做到了 8 層,而搜狗最多做到 5 層。陳偉對此的解釋是「我們主要完成的任務是語音實時翻譯,是以在保證翻譯精度的同時,要兼顧速度,我們展現的是語音識别加翻譯連在一起的效果,是以需要整體進行評估,這畢竟是實時的翻譯,不是輸入一個文本,輸出翻譯文本,任務就結束了,而是演講者一直在講,他的中文識别結果實時展現,同時英文譯文也需要快速地輸出,是以我們要盡量把時延降低。完成這個産品要在速度和精度上做一個折衷。」

而深度學習技術中,最終的效果不僅和算法相關,還和資料密不可分。「真正的模型是需要跟資料結合非常緊密,你隻有有了大的資料才能學習出複雜的模型,剛才的模型結構非常的複雜,我會覺得對目前機器翻譯而言,搜尋公司在語料上面的積累,非常有助于我們在很多領域取得很好的機器翻譯效果。」陳偉表示。搜狗每天語音請求次數在 1.9 億次,代表每天都可以收回來大概 16 萬小時的資料,這些資料再加上搜狗自身在深度學習技術的積累,使得其在語音識别取得比較好的效果,進而帶來更加準确的翻譯結果。陳偉說:「語音實時翻譯技術中,翻譯對接在識别後面,是以隻有識别提供非常準确、可靠的結果以後,翻譯的威力才能發揮出來。錯誤較多的結果是無法準确翻譯出來的,這也是其他家沒有把翻譯推到現實場景中的原因之一。」

谷歌神經機器翻譯推出後,宣布将 GNMT 投入到了非常困難的漢語-英語語言對的翻譯生産中,這引起了業内的極大的關注。微軟也釋出了萬能翻譯器,支援語音識别、拍照識别、直接輸入翻譯功能,官方表示它也可以實作多達 100 人間實時翻譯交談。而搜狗領先的機器翻譯技術也已經開始了應用,目前,根據此前在烏鎮的實際效果評比,以及一些人工判斷,搜狗語音實時翻譯的準确率在 90% 左右。搜狗表示會上線翻譯産品,使用者輸入文本時會自動翻譯成英文。此外,也會和一些電視廠商進行一些合作。

據維基百科介紹,人類目前大概有 6000 多種語言。自人類在未建成的「巴别塔」下不歡而散以來,實作全人類之間的順暢交流一直是我們的夢想。現在,人工智能方法讓我們看到了真正實作這一夢想的希望。這也是我們機器翻譯讓大衆持續興奮、讓技術公司和研究人員保持動力的最大原因。

正如王小川所說,語言上是我們最需要做的,因為我們首頁做輸入法和搜尋都是和文字資訊打交道,但文字資訊是人工智能裡最難的一件事,我們還專注在這件事情上,文字領域的人工智能怎麼發展。

©本文為機器之心原創,轉載請聯系本公衆号獲得授權。

繼續閱讀