天天看點

同聲傳譯,Skype完勝99.9%地球人

同聲傳譯,Skype完勝99.9%地球人

skype前幾天推出了實時語音翻譯的預覽版,讓使用者可以跨越語言的障礙暢快交流。今天我們就來聊聊微軟是如何做到這一點的。

skype 的翻譯系統主要分三步:首先,把你的實時語音轉換成文字;然後,再把文字翻譯成另一種語言的文字;最後,把文字轉換成語音。其中,識别實時語音并轉換成文字一直是最棘手的部分。

圖像處理和語音識别是深度學習發展的兩個主要方向。近幾年來,由于深度學習的進步,語音識别依靠深度神經網絡(deep neural networks)也取得了不少進展。神經網絡在八十年代就已出現,但真正開始煥發光芒是在 2012 年,google 讓計算機能夠“自我修養”——在一堆視訊裡自主學習并總結出貓的概念。

微軟研究員 john platt 在接收wired采訪時曾表示,微軟其實很早之前就開始利用神經網絡改善平闆電腦的手寫識别精确度了。而 skype 實時語音翻譯系統真正的突破在于識别不同使用者間的不同語言不同口音的說話方式。

這一突破發生在 2009 年的聖誕節,當時微軟在英國哥倫比亞贊助了一個小型研讨會,來自多倫多大學的演講嘉賓 geoff hinton 介紹了自己研究的一種模仿腦神經工作原理的機器學習模型,這一模型依靠多層次的人工神經元,讓機器逐漸了解更加複雜的概念。微軟聽完介紹後,随即砸下一筆巨款,讓 hinton 的模型可以利用最新的圖形處理器單元進行測試。測試的結果很棒,語音識别的精确度提升了 25%。

skype 的機器學習原型通過預覽階段的大量資料進行訓練,并優化語音識别(sr)和自動化機器翻譯(mt)任務,這些優化包括去除語句中的不流利成分(比如“ahs”、“umms”和重複性的語言)、把文本分段成句子、增加标點符号、文本的大小寫等等。

其中,語音識别和機器翻譯的訓練集資料主要有多個來源,包括已翻譯的網頁、帶字幕的視訊、翻譯轉錄的一對一對話内容等。此外,很多志願者向微軟貢獻出的語音對話也是一個非常重要的訓練集資料來源。同時,skype 的翻譯系統還會記錄使用者的對話内容,實作二次利用,以進行資料分析,加以學習。

在資料進入系統之後,機器學習軟體會為對話中的單詞建立統計模型,當你說到某一個東西時,系統會在統計模型裡尋找類似的單詞,并響應之前做過的類似的翻譯。實時語音翻譯對使用者對話的環境很敏感,稍有噪音幹擾可能準确度就會降低很多。這一方面,深度神經網絡有效的減少識别錯誤率,改善了系統的健壯性,讓實時翻譯能夠有更大的應用範圍。

至于不同語言的文本翻譯,skype 利用的則是和bing翻譯一樣的引擎技術:文法和統計模型的結合使用,同時為特定語言進行特殊的訓練。普通的文本翻譯往往要求使用規範正确的書面語言,而 skype 翻譯系統不僅包括 bing 翻譯的引擎技術,還額外增加了一層口語化的語言業務。

此外,skype 還建立了一套自定義的串連整個流程的架構,以協調系統裡多個部分間的運作。如何簡單又高效的運作整個系統,也是一門不小的學問。

skype 的實時語音翻譯系統還面臨着很多挑戰,比如語言的變化的速度很快,每個人說話的方式又很獨特,這些都會為實時翻譯造成不少的麻煩。微軟研究院總監 vikram dendi 說,截止到星期一,總共已經有 5 萬個使用者注冊了預覽版 skype 翻譯,而一天後,這個數字變成了兩倍。對于這一種可能會真正改變人們交流方式的科技産品,越來越多的人為之感到激動。

原文釋出時間為:2015-01-21

本文來自雲栖社群合作夥伴“大資料文摘”,了解相關資訊可以關注“bigdatadigest”微信公衆号

繼續閱讀