天天看點

騰訊優圖實驗室AI手語識别研究白皮書

騰訊優圖實驗室AI手語識别研究白皮書

前言

據2017年北京聽力協會預估資料,我國聽障人群數量約達到7200萬。放眼世界,世界衛生組織釋出的最新資料顯示,全世界有共計約4.66億人患有殘疾性聽力損失。盡管聽障人群能夠憑借手語進行交流,但在機場、民政等公共服務環境中仍然面臨溝通障礙等一些亟待解決的問題。

秉承“科技向善”的技術價值觀,騰訊一直緻力于通過AI等技術手段解決人類面臨的社會問題。我們相信,科技能夠造福人類,人類應該善用科技,努力去解決自身發展帶來的社會問題。作為國内計算機視覺人工智能領域的領先研究團隊,騰訊優圖實驗室近日攻堅AI手語識别并取得突破性進展,自研出一套基于結構化特征學習的端到端手語識别算法,能夠識别日常手語并快速運算出結果并把手語翻譯成為文字,有望為聽障人群正常交流提供更多便利。

目前,騰訊優圖實驗室已經與深圳市資訊無障礙研究會達成合作,并于近日正式釋出“優圖AI手語翻譯機”,探索在機場、高鐵、民政等公共服務場所提供手語翻譯服務。未來,騰訊優圖希望能通過與聽障者或手語使用者的深入接觸,擴充資料容量,完善資料規範,根據不同的場景優化識别算法,搭建出通過手語與聽障人士無障礙溝通的完整系統和平台,用AI消除障礙,做有溫度的科技、無差别的科技。

一、潛在需求分析

(一)聽障人士數量已達7200萬

資訊的接收與傳遞是包括人類在内的任何有機體與世界最為基本的溝通方式,而對于聽障人士來說,他們失去了聽力這個認識世界最為重要的感覺途徑。世界衛生組織最新資料顯示[1],目前全球約有4.66億人患有殘疾性聽力損失,超過全世界人口的5%,估計到2050年将有9億多人(約十分之一)出現殘疾性聽力損失。據北京聽力協會2017年公開資料,估計中國殘疾性聽力障礙人士已達7200萬[2],相當于北京市常住人口(約2200萬,2015年資料)的3倍多,是我國少數民族人口中最多的民族壯族(約1500萬,2015年資料)的近5倍,這其中還不包括輕中度聽損的人口。

騰訊優圖實驗室AI手語識别研究白皮書

(資料來源:世界衛生組織官網)

騰訊優圖實驗室AI手語識别研究白皮書

(資料來源:2017年北京聽力協會預估)

(二)無障礙普及率有待提升,聽障人群需求被忽視

《2017年百城無障礙設施調查體驗報告》顯示,我國無障礙設施整體普及率僅為40.6%[3],除了普及率較低,還存在部分無障礙設施被占用、維護不到位、設計存在問題等情況。而與其他殘障人士不同的是,在現實生活中,聽障者除了使用手語交流以外,與普通人幾乎沒有差別,這也正是聽障者容易被忽視的原因之一。目前的公共環境設施、産品設計等往往忽略了聽障者的特殊需求。聽障者面臨的不僅僅是日常交流上的障礙,更多的是溝通障礙所衍生的諸多不便。

騰訊優圖實驗室AI手語識别研究白皮書

(聽障人群痛點分析)

《光明日報》的一篇報道曾指出[4],因為溝通障礙,絕大部分的聽障者都生活在自己封閉的小世界裡,社會活動參與度極低的他們往往會感到孤獨。雖然受過教育的聽障者也能夠使用文字進行交流,但是對于他們來說,手語是更易于使用和接受的交流方式,而我國目前緻力于聽障者專業服務的人士隻有大約一萬名,大部分公共服務并沒有配備專門的便利設施,這些都是聽障者長久以來面臨的迫切需求。

科技的進步為大衆生活帶來諸多便捷,而對于愈發龐大的聽障人群,他們的生存狀态需要得到社會的更多關注,他們迫切需要前沿科技為他們解決交流障礙帶來的諸多不便。

二、手語表達與AI技術結合的行業探索

(一)各研究機構展開探索嘗試,技術落地存在諸多因素限制

手語翻譯的核心技術是手語識别(SLR)。這個技術就是指通過計算機算法,自動區分手語表達中的各類手勢、動作以及這些手勢和動作之間的切換,最後将表達的手語翻譯成文字。傳統的方法通常會針對特定的資料集設計合理的特征,再利用這些特征進行動作和手勢的分類。受限于人工的特征設計和資料量大小,這些方法在适應性、泛化性和魯棒性上都非常有限。

近年來,大資料和深度學習極大推動了人工智能算法的發展,尤其展現在計算機視覺、自然語言處理和音頻處理等領域,這助推了AI算法在許多應用和場景中實作落地,許多研究員和工程師也開始嘗試運用深度學習和資料驅動的算法來解決SLR的問題。然而不同于大部分的計算機問題,手語特有的地域性、複雜性和多樣性,不僅增加了資料采集和清洗的難度和成本,也使得這門技術哪怕在深度學習的幫助下也依然存在很大的挑戰,難以被實際應用。

目前,有研究機構或機關針對解決聽障人群溝通問題的技術研究,但研究方向多集中在将文字轉化成手語方向,而“針對聽障人群的手語識别轉化成文字”的方向因為技術難度極大,尚鮮有技術方案落地。

(二)騰訊優圖自研手語識别算法,推出“優圖AI手語翻譯機”

騰訊優圖結合聽障人士手語表達的習慣采集了手語資料,利用前沿的圖像序列分析技術自研了一套手語識别算法,推出“優圖AI手語翻譯機”。AI手語翻譯機以普通攝像頭作為手語采集裝置,依托高性能計算機進行背景運算,能夠實時地将手語表達翻譯成文字。對于使用者而言,不需要攜帶任何額外裝置,隻要面對攝像頭完成正常的手語表達,就能從翻譯機中得到回報回來的識别結果。

騰訊優圖實驗室AI手語識别研究白皮書

(優圖AI手語翻譯機界面截圖)

三、優圖AI手語翻譯技術解讀

(一)算法優勢

相比于此前的手語識别相關的産品和技術方案,我們的手語識别算法主要能夠實作以下幾點優勢:

1.   基于純RGB圖像序列

手語表達極具複雜性,一個手勢或者動作幅度的小變化就可能會造成表達意思上很大的不同。是以,之前的很多産品或方法往往需要借助于一些額外的裝置,例如使用Kinect錄影機的多種傳感器來提前擷取手語表達者的肢體關節點資訊,又例如在手上攜帶傳感器手套、或配備EMG、IMU傳感器的手環來擷取手臂和手掌的活動資訊。這些額外的裝置無形之中增加了使用的門檻,同時也帶來了一定的不便利性。

與此不同,我們的翻譯機不需要任何額外裝置的幫助,使用者隻需要一個普通的攝像頭(如手機攝像頭或普通網絡攝像頭)對手語表達者的表達過程進行拍攝,翻譯機就可以完成識别翻譯的過程。

2.  支援多樣性表達

手語極具地域性和多樣性。地域性即指不同地區(如深圳和廣州)對同一個詞可能存在不同的表達方式,同時由于個人習慣,即便是在同一個标準下,動作的呈現也可能不盡相同。多樣性則展現在手語表達中,同一個動作在不同的語境之中可能有着非常不一樣的意義,而同一個詞在不同的語境中又可以使用不同的動作進行表達。盡管這些情況非常常見,多樣性的問題在之前的産品或方法中是沒有被考慮進去的。

我們首次将多樣性的問題考慮到了算法識别的過程中,支援常見的多樣性表達,使用者不需要針對翻譯機學習某種特定的詞與動作之間的映射,根據自己平時的表達習慣進行表達即可。

3.  靈活的整句識别

聽障人士進行手語表達往往以句子為機關,表達完一個完整的句子之後才會出現停頓,在一個句子的不同詞之間很少會做停頓。然而之前的許多産品或算法實際上是以詞為機關進行識别的,需要在詞與詞之間做出明顯的停頓。另外為了能夠将語句進行劃分,還可能需要設定特定的起始動作和結束動作,在每次表達開始和結束時作為信号語句劃分的信号。這限制了使用的靈活性和流暢度。

與此不同,優圖AI手語翻譯機能夠實作整句的識别和翻譯,使用者表達的時候可以連貫将整個句子表達完。也不需要設定特定的結束或起始動作,而是直接對使用者的動作與否進行判斷。

(二)實作方法

與聽障人士手語表達高度符合的資料集、先進的手語識别算法是翻譯機得以實作的有力支撐。

騰訊優圖實驗室AI手語識别研究白皮書

(手語識别算法總體架構圖)

1.  更大更全的手語識别資料集

我們通過與社會相關機構和聽障人士的接觸了解了手語表達的特點,并根據這些特點采集了自己的手語識别資料集。同時對資料進行進一步的分析和歸納,目前,AI手語翻譯機的資料集覆寫了近千句日常表達,900個常用詞彙,是最大的中文手語識别資料集。

不僅如此,采集資料集還考慮了手語的地域性和多樣性表達,包含了不同的表達習慣和速度。這為進一步提升我們算法的泛化能力提供了很好的基礎。

2.  更強大的特征提取器

為了能夠在手語極具複雜性的表達中充分提起識别所需要的特征資訊,我們結合了普通2D卷積網絡和3D卷積網絡的優勢,通過2D卷積網絡來提取手語中的手勢和身體姿勢等靜态資訊,同時通過3D卷積網絡來提取手語中普遍存在的細微而快速的變換動作的動态資訊,最後将這兩個資訊相結合,産生我們最後的特征表達。

靜态和動态資訊的結合形成了很好的互補,同時避免了資訊過早的流失,在我們的實驗中對我們識别效果的提升很有幫助。在充分利用了視訊中的動、靜兩種資訊之後,我們的算法也得以能夠利用單純的RGB視訊圖像就達到識别的目的,不需要借助額外的傳感器裝置。

3.  句子表達中挖掘詞級資訊

雖然聽障人士在進行手語表達的時候是以句子為機關的,但是句子又是由不同的詞語組合而成的,是以從文法上來說,詞才是手語的最小表達單元。與此同時,一個詞語的表達往往不是一個單一的動作和手勢,而是一些手勢和動作的變換,這個過程有長有短,之間也沒有刻意的停頓,是以往往掩蓋在了整個句子的表達之中。

為了将這些詞語表達的資訊挖掘出來,我們的算法在視訊幀與最後的輸出之間加入了詞級資訊提取單元,詞級資訊提取單元利用長短時網絡充分考慮特征提取器所提取出的資訊,并結合視訊中相鄰的資訊計算出詞級的特征表達。這個單元幫助我們的算法能夠更好地在句子中找到詞語表達的邊界,并提升對各種地域性表達的總結能力。 

4.  單句切分并充分考慮句中上下文資訊

我們的算法在提取詞級資訊的基礎上還會充分将整句中的上下文資訊進行綜合考慮,然後再輸出最後的識别結果。這對識别手語中的多樣性表達非常重要,因為同樣的動作隻有放在上下文的語境中才能最後确定它的意思。

同時,為了減少使用者在使用過程中的限制,我們在手語識别之前加入了人臉檢測和動作檢測兩個子產品,用人臉檢測确定手語表達者的位置,然後用動作檢測判斷他是否在做手語表達。三個子產品協同合作,最後讓翻譯機能夠自适應地找到使用者的位置,并連貫識别使用者的一系清單達。

騰訊優圖實驗室AI手語識别研究白皮書

(與其他算法在兩個公開手語識别資料集上的性能對比,資料顯示的是詞錯率(WER),越低越好)

(三)落地條件限制及應用方向

就目前來說,優圖AI手語翻譯機仍處于實際應用探索階段。主要受三個問題限制,一是需要高性能計算機,二是複雜環境背景的适應性,三是語料庫進一步拓展。

是以,我們将進一步探索在一些公共事務場所如機場、民政等公共服務領域等提供無障礙溝通解決方案,友善聽障人日常交流提供便利。

四、意義和願景

優圖AI手語翻譯機是騰訊優圖基于先進的動作識别和視訊分析算法對手語識别技術的一次擴充和優化。我們始終相信,作為AI技術的探索者,解決和優化技術難題是團隊應肩負的責任和擔當,創造和傳播AI的價值和溫暖是團隊應秉持的使命和信仰。

我們将在未來對我們的AI手語翻譯機進行持續的更新和優化,讓AI手語翻譯機走進聽障人士的生活,在日常服務視窗、手語教育等場景中為聽障人士帶來實實在在的便利。我們希望以手語翻譯機為媒介,深入接觸聽障群體,進一步了解手語和優化我們的資料和識别算法,使我們的翻譯機能夠覆寫更多的表達和場景。我們更希望我們的AI手語翻譯機能夠助力手語的普及和規範,增加社會對這個群體的關注度,幫助聽障人士更好地融入社會,讓他們能夠和我們一樣,更好地享受和體驗技術創新和科技發展所帶來的紅利。

實際上, 這并不是騰訊在AI+無障礙建設上的首次嘗試,騰訊一直在堅持推動“一個都不能少”和“資訊無障礙”理念的傳播與落地。2018年12月3日,騰訊獲得了“聯合國教科文組織數字技術增強殘障人士權能獎”。

騰訊自 2009 年起在資訊無障礙方面率先展開探索,截至目前,旗下QQ、QQ空間、微信、騰訊網、騰訊新聞、應用寶、企鵝FM等大部分産品已針對障礙使用者實作專門優化。騰訊旗下各類産品從社交、娛樂、新聞等多元度出發,共同努力,為障礙人士建構友好的資訊社會。

感謝深圳市資訊無障礙研究會及所有參與此次優圖AI手語研究項目的團隊和個人。

[1] 世界衛生組織官網最新資料

[2] 北京聽力協會2017年預估資料

[3] 資料來源:《2017年百城無障礙設施調查體驗報告》

[4] 報道内容來源:光明日報 

http://epaper.gmw.cn/gmrb/html/2015-01/17/nw.D110000gmrb_20150117_1-10.htm

騰訊優圖實驗室AI手語識别研究白皮書

var first_sceen__time = (+new Date());if ("" == 1 && document.getElementById('js_content')) { document.getElementById('js_content').addEventListener("selectstart",function(e){ e.preventDefault(); }); } (function(){ if (navigator.userAgent.indexOf("WindowsWechat") != -1){ var link = document.createElement('link'); var head = document.getElementsByTagName('head')[0]; link.rel = 'stylesheet'; link.type = 'text/css'; link.href = "//res.wx.qq.com/mmbizwap/zh_CN/htmledition/style/page/appmsg_new/winwx45ba31.css"; head.appendChild(link); } })();

贊賞

長按二維碼向我轉賬

騰訊優圖實驗室AI手語識别研究白皮書

受蘋果公司新規定影響,微信 iOS 版的贊賞功能被關閉,可通過二維碼轉賬支援公衆号。

閱讀

分享 在看

已同步到看一看

取消 發送

我知道了

朋友會在“發現-看一看”看到你“在看”的内容

确定

騰訊優圖實驗室AI手語識别研究白皮書

已同步到看一看寫下你的想法

最多200字,目前共字 發送

已發送

朋友将在看一看看到

确定

寫下你的想法...

取消

釋出到看一看

确定

最多200字,目前共字

發送中

微信掃一掃

關注該公衆号

微信掃一掃

使用小程式

即将打開""小程式

取消 打開