天天看點

馬雲爸爸“翻譯情未了”? 回顧阿裡翻譯平台的進擊之路!

雷鋒網ai科技評論按:在百度翻譯,谷歌翻譯幾乎要霸占整個機器翻譯市場時,阿裡翻譯宣布已成功研發阿裡雲pai工具,基于阿裡雲pai可以将神經網絡翻譯訓練效率提升5倍,這将大大加速阿裡翻譯平台的建設。希望阿裡翻譯以後也能走進我們的生活中。

衆所周知,馬雲爸爸在創立阿裡之前是做翻譯服務及開翻譯公司的。随着近幾年阿裡的業務不斷擴大,全球化戰略程序加速,語言問題也成了最基礎的需求之一,尤其是跨境電商交易對多語言翻譯需求尤甚。此前阿裡在語言服務上做過不少努力,包括收購國内最大的人工翻譯平台,但這遠遠不能滿足阿裡平台上億級别客戶的需求。正當阿裡為此感到苦悶時,谷歌的神經網絡翻譯技術出現了,可以說是為阿裡的翻譯平台插上了一對翅膀。

馬雲爸爸“翻譯情未了”? 回顧阿裡翻譯平台的進擊之路!

早在2015年6月份,阿裡就已收購國内最大的衆包翻譯平台——365翻譯。當時把阿裡翻譯平台定位為阿裡巴巴的語言服務平台,将瞄準人機結合模式,在語言服務領域進行更多創新。365翻譯的加入确實為阿裡的跨境電商領域分擔了一些翻譯業務上的壓力。并且在機器翻譯領域,和電商相關的幾個主要語種中,其翻譯的準确率基本和谷歌翻譯持平。然而,阿裡語言服務平台的野心并不止于此。他們想借助強大的人工翻譯團隊和電商大資料研發下一代基于神經網絡技術的翻譯平台。

馬雲爸爸“翻譯情未了”? 回顧阿裡翻譯平台的進擊之路!

神經網絡翻譯技術是一種用于自動翻譯的端到端的學習方法,該方法能夠克服傳統的基于短語的翻譯系統的缺點,可以将整個輸入句子視作翻譯的基本單元。從2016年以來的學術界頂級會議上,幾乎全是圍繞nmt相關的創新工作,之後谷歌、微軟等巨頭公司相繼釋出nmt系統。

阿裡翻譯團隊也緊緊抓住這一機會于2016年10月起正式開始自主研發nmt模型,2016年11月首次将nmt系統的輸出結果應用在中英消息通訊場景下的外部評測中并取得了不錯的成績,翻譯品質有了大幅度提升。

馬雲爸爸“翻譯情未了”? 回顧阿裡翻譯平台的進擊之路!

但是,由于nmt(神經網絡機器翻譯)模型的結構複雜,且深度神經網絡模型本身的訓練過程一般又會涉及很大量的計算,是以nmt系統往往需要較長的訓練周期,例如,使用3000萬的訓練資料在單塊gpu卡上一般需要訓練20天以上,才能得到一個初步可用的模型。

基于上述問題,2017年2月初開始,阿裡翻譯團隊和阿裡雲large scale learning(大規模學習)的穆琢團隊合作,共同開發支援分布式訓練的nmt系統,并于2017年3月底完成了第一個版本的分布式nmt系統。

在2017年4月份的英俄電商翻譯品質優化項目中,分布式nmt系統大大提高了訓練速度,使模型訓練時間從20天縮短到了4天,為項目整體疊代和推進節省了很多時間成本。

馬雲爸爸“翻譯情未了”? 回顧阿裡翻譯平台的進擊之路!

圖:使用不同卡數時,在中英100萬訓練語料上獲得的收斂加速比

pai是阿裡推出全球化戰略“nasa”計劃後釋出的首個重磅工具,可以完全相容全球主流的深度學習開源架構。同時,底層提供強大的雲端異構計算資源,包含cpu、gpu、fpga。在gpu方面,可靈活實作多卡排程。

除了基于ma的分布式實作,增加gpu卡的數量,有不同的收斂加速比以外,阿裡翻譯項目組還嘗試了其他多種分布式實作方法,也都獲得了不同程度的加速效果,包括downpour

sgd、allreduce sgd以及使用了bmuf(blockwise model-update filtering, 一種針對model

average方法的改進方案)政策的model

average方法。下圖中顯示,在硬體條件相同,bmuf的收斂效果要比ma(黃色柱狀)分布式要好。

馬雲爸爸“翻譯情未了”? 回顧阿裡翻譯平台的進擊之路!

阿裡方面還表示:上一階段工作主要集中在模型訓練階段的加速政策上,接下來的工作主要分為兩方面:一方面是繼續挖掘分布式訓練的加速潛力,通過系統與算法相結合的優化政策,最大化利用硬體資源,提升收斂加速比,并将分布式優化政策和算法模型本身解耦,實作複雜深度學習模型分布式加速功能的元件化和通用化。

另一方面,需要在現有的服務化方案的基礎上,進一步通過模型精度壓縮、網絡結構簡化等方式,在保證模型效果的同時,提高解碼速度,降低線上延時,進而增強線上服務能力,節約服務化所需的硬體成本。

馬雲爸爸“翻譯情未了”? 回顧阿裡翻譯平台的進擊之路!

後來雷鋒網了解到:阿裡翻譯團隊還在破解線上服務處理延時的難題,平台目前還在内測階段。不過雷鋒網編輯還是發現了一個能使用阿裡翻譯界面的網站。現在就來對百度翻譯,谷歌翻譯,阿裡翻譯做一個簡單的漢譯英測試。

百度翻譯:

馬雲爸爸“翻譯情未了”? 回顧阿裡翻譯平台的進擊之路!

谷歌翻譯:

馬雲爸爸“翻譯情未了”? 回顧阿裡翻譯平台的進擊之路!

阿裡翻譯:

馬雲爸爸“翻譯情未了”? 回顧阿裡翻譯平台的進擊之路!

為了能使阿裡翻譯展現出自己擁有電商大資料的優勢,特别選了一句跨境電商領域的句子:自有産品,經營主體自行生産或自有品牌的産品,以及外部采購以自己名義進行銷售的産品。從翻譯結果對比來看,阿裡翻譯似乎比百度和谷歌的翻譯好一點。接下裡進行第二項測試,英譯漢測試:

百度翻譯

馬雲爸爸“翻譯情未了”? 回顧阿裡翻譯平台的進擊之路!

谷歌翻譯

馬雲爸爸“翻譯情未了”? 回顧阿裡翻譯平台的進擊之路!

阿裡翻譯

馬雲爸爸“翻譯情未了”? 回顧阿裡翻譯平台的進擊之路!

這次阿裡翻譯似乎表現的不太好,表現最好的是百度翻譯。不過從一些關鍵詞的翻譯還是能展現出阿裡翻譯的特色,比如:jurisdiction,翻譯為“法域”;buyer和seller翻譯為買家和賣家。可以猜測阿裡翻譯在跨境電商等類似的特定場景下會表現的更好。總的來說,阿裡翻譯的漢譯英表現還不錯,但在英譯漢的情況下表現的沒有谷歌翻譯和百度翻譯好。

阿裡翻譯現在還沒上線,但憑借自己擁有海量的電商跨境交易資料和強大的365人工翻譯團隊,再加上阿裡雲pai工具對神經網路翻譯訓練效率的提升,相信不久後阿裡翻譯會有一個質的飛躍,在機器翻譯領域占取一定的市場佔有率也不是沒有可能的。希望阿裡翻譯平台開放後能給使用者一個驚喜。

據雷鋒網了解:在阿裡巴巴内部,pai已經被廣泛使用。淘寶搜尋使用pai的參數伺服器,可以把百億個特征的模型,分散到數十個乃至于上百個參數伺服器上,打破規模瓶頸。最終實作搜尋結果基于商品和使用者的特征進行排序。現在,阿裡翻譯團隊還在破解線上服務處理延時的難題,為神經網絡機器翻譯模型的大規模應用掃除最後障礙。

via雷鋒網

本文作者:楊文

繼續閱讀