天天看點

火了這麼久的 AI,現在怎麼樣了?

近年來 AI 發展迅猛,從最初的萌芽到今天非常成功的應用,AI 有很多優秀的實踐,同時也遇到了非常多的挑戰,需要不斷地通過技術革新來解決這些困局。阿裡巴巴達摩院進階研究員金榕将通過本文介紹目前 AI 已取得的應用實踐,解析 AI 的創新以及可探索的未來。

本文将主要圍繞以下四個方面展開:

  • AI 技術背景
  • 自然語言處理
  • 語音技術
  • 機器視覺

金榕老師《困局與破局:從深度學習到AI三大關鍵技術》

點選回看直播

一、AI 技術背景介紹

目前的 AI 技術都是以深度學習為基礎,而深度學習完成如此複雜的學習過程需要兩個條件,首先需要大量的資料,深度學習非常依賴資料挖掘技術,用于産生大量有效的訓練資料。此外,深度學習還需要優化算法,因為深度學習要在非常複雜的網絡中找到最好的模型,用于比對資料。在最基礎的深度學習模型上,有三個主要的領域,既圖像視覺、語音互動和自然語言處理。其中,圖像視覺是由圖像處理和了解、自然人識别、視訊編解碼和内容分析、三維視覺等技術組成。語音互動是由語音識别、語音合成、語音硬體技術等組成。自然語言處理包括自然語言應用技術、語義了解計算、翻譯基礎計算等技術。所有這些技術組成了人工智能技術。綜上而言,人工智能是由深度學習和機器學習組成的。

1.機器學習

機器學習的目标是利用有限的樣本對未知的目标函數求近似。任何機器學習模型都有三個 component 組成,首先确定要學習的函數空間、然後确定使用的資料,用哪些訓練資料拟合機器學習模型,最後是找到優化算法,讓機器從函數空間中學習到最好的模型,即最佳比對資料的模型。

2. 深度學習

機器學習是考慮所有可能的函數,而深度學習隻考慮一個特殊類的函數,神經網絡。在資料方面,深度學習的資料要求比普通模型的要求要高很多。在大資料支援的前提下,才能夠真正發揮深度學習的作用。傳統的優化隻是做凸優化,而在深度學習場景中要處理非凸優化。是以,深度學習在三個 component 中都會遇到非常大的挑戰。首先,神經網絡構成的函數空間非常不清楚。其次,由于大資料的複雜性,訓練資料的難度比傳統機器學習的難度要大。最後,非凸優化無論在理論或實踐層面都沒有很成型的模版。是以業界為了找到最佳的實踐也在做很多的實驗研究。

3.人工智能發展的關鍵

人工智能發展主要包含兩個關鍵點。首先可以利用大量豐富的“活”資料。利用“活”資料的應用有很多,如 2016 年谷歌的 AlphaGo 戰勝了圍棋世界冠軍。另外,AI 技術具備強大的計算能力,如目前非常火的自動駕駛技術,Google 的 Waymo 可以在非常長的距離下無需人為幹預的進行自動駕駛。但是這些技術早在 20 多年以前都有所實踐,在 1995 年,Backgammon 通過和自己下 1.5 萬盤棋,成為了世界冠軍。在 1994 年,Alvin 以每小時 70 英裡的速度從美國的東海岸開到了西海岸。相比這 20 多年的發展,本質上的不同點是資料的數量級和計算能力的提升。如人臉識别技術現在都需要上億級别的訓練資料,而以前隻有幾百萬張的資料。傳統的 AI 技術要依靠很多的 GPU 才能得到比較好的模型效果。

1.自然語言處理模型

自然語言處理也有着很長的曆史,以前叫計算語言學。傳統的計算語言學方法使用統計學的語言機率模型建構自然語言模型。如下圖中的“中國鼓勵民營企業家投資國家基礎建設”,這一句話可以被解析為一個語言樹,分為主語、謂語、賓語、動詞和名詞等内容。也就是利用語言樹表達這句話的文法結構。另外,傳統的自然語言中常用的技術叫統計語言模型。如下圖中的拼音串 “ta shi yan jiu sheng wu de” 可以有多種可能的漢子串表達,人為判斷的話應該是最後一條“他是研究所學生物的”。實際上,人類大腦中通過大量閱讀會形成一個概念圖表,知道哪些表達是可能發生的,形成了一種統計語言模型。最典型的統計語言模型是 Bi-gram 模型,計算一個詞之後可能出現的詞的機率。但傳統的計算語言學方法存在模型欠精準,文本處理效果一般等弊端。

火了這麼久的 AI,現在怎麼樣了?

鑒于傳統方法的局限,深度學習可以用于自然語言進行中,其中最成功的的模型叫深度語言模型。與傳統方法的差別在于它将所有詞的上下文資訊用張量表示,還可以雙向表示,即對未來和過去都做預測。此外,深度語言模型利用了 Transformer 結構,可以更好的捕捉詞和詞之間的關系。

火了這麼久的 AI,現在怎麼樣了?
  • 自然語言模型 - 問題應用

問答應用傳統的方式是常見問答對(FAQ)和知識圖譜(KBQA)。如下圖中的例子,問答對是一個資料庫,包含問題和回答。這種方式相對保守,且編輯問答對要求人對相應的 domain 有比較深的了解,很難擴大領域,且冷啟動慢。為了解決此問題,随之出現了機器閱讀了解的技術,它可以直接自動從文檔中找到比對問題的答案,通過深度語言模型将問題和文檔轉化為語義向量,進而找到最後的比對答案。

目前問答應用廣泛應用于各大企業,如阿裡小蜜,閑魚賣家助理,每天幫助百萬級的買家自動擷取商品和活動資訊。

火了這麼久的 AI,現在怎麼樣了?

2.自然語言處理 - 機器翻譯

另外一個比較成熟的 AI 技術的應用是機器翻譯。傳統的翻譯模型叫統計機器翻譯模型(SMT),如下圖左側,從翻譯結果來看,統計機器翻譯模型容易産生錯譯,整體流暢度差,包含文法錯誤。引入深度學習的神經網絡機器學習模型(NMT)的結果錯譯少,流暢度也比較高,符合英文的文法規則。

下圖中可以看到,Google Brain 對神經網絡做了一個評估報告,其中 phrase based 翻譯模型達到的效果有限,而基于神經網絡的翻譯模型有了明顯的提升。同時,在阿裡巴巴業務中機器翻譯也得到了廣泛應用,如電商場景中對商品資訊的翻譯,釘釘 AI 翻譯等。但是因為釘釘的資訊都是比較随意的表達,是以釘釘 AI 翻譯在未來還有很大的進步空間。

三、語音技術

語音技術在很長一段時間内都被想象成是編碼的技術,将文字編譯成語音信号。而語音識别的過程是屬于解碼的過程。通常語音識别有兩種模型,語言模型(Language Model)和聲學模型(Acoustic Model)。語言模型主要的場景是預測某詞或詞序列的機率。聲學模型預測通過詞 W 的發音生成特征 X 的機率。

火了這麼久的 AI,現在怎麼樣了?

1. 語音識别

  • 混合語音識别系統

傳統的混合語音識别系統叫 GMM-HMM,GMM 用于聲學模型, HMM 用于語言模型。即使在語音識别領域大家做了很長一段時間的努力,但還是無法達到人類語音識别水準。到了 2009 年之後,基于深度學習的語音識别系統開始發展, 2017 年微軟聲稱它們的語音識别系統比傳統的語音識别系統有了明顯的提升,甚至比人類的語音識别水準更好。

傳統的混合語音識别系統包含獨立優化的聲學模型,語言模型和語言學家設計的發音詞典。不難發現,傳統的語音識别系統的建構流程非常繁瑣,它需要多個 component 并行開發,各個模型都是獨立優化的,導緻最終的優化效果不盡人意。

  • 端到端的語音識别系統

基于傳統的語音識别系統遇到的問題,端到端的語音識别系統中将聲學模型、解碼器、語言模型、發音詞典都結合在一起,統一進行開發和優化,使得效果達到最優。實際的實驗結果明端到端語音識别系統可以進一步降低識别 20+% 的錯誤率。此外,模型的達到會大大縮小,可以達到傳統語音識别模型的幾十分之一。而且端到端的語音識别系統還可以在雲上發揮作用。

火了這麼久的 AI,現在怎麼樣了?

2.語音合成

語音合成大概分為幾個 component。首先是前端的文本分析,進行詞的拆分,識别 break,這些會構成語言資訊。之後,傳到後端通過聲學模型産生聲波。

火了這麼久的 AI,現在怎麼樣了?
  • 語音合成曆史

語音合成技術從最早的 GMM,到 2000 年的 HMM,再到 2013 年,基于深度學習的模型。而到了 2016 年,WaveNet 相較于之前的模型,在語音品質上有了質的飛躍。2017 年出現了端到端的語音合成模型。2018 年阿裡巴巴的 Knowledge-aware Neural 模型不僅能夠産生很好的音質,還實作了大規模的模型壓縮和計算效率的提升,可以實時産生有效的合成語音。

火了這麼久的 AI,現在怎麼樣了?

語音合成一直存在一個較大的 borderline,即定制化成本非常高。通常傳統的語音定制則需要專業的發言人,還要在錄音棚中錄制,人工精準的标注,而且需要大量的資料,一般大于 1 個小時。而如今,語音合成需要在個性化聲音定制方面做一些嘗試,任何的普通人隻要通過手機進行錄制,即便在噪聲環境下,也可以完成個性化的聲音定制。如可以将車内導航系統的語音換成家人的聲音。

火了這麼久的 AI,現在怎麼樣了?

3.多模态語音互動方案

當人和人對話時,不隻是在聽聲音,而是通過視覺和聽覺結合起來了解對方表達的意思。未來的語音互動系統中,還需要将多模态互動方案引入進來。目前的語音識别系統在嘈雜環境下的效果還是不盡人意的,在地鐵等嘈雜的公共環境中還是會遇到較大的挑戰。阿裡達摩院希望将語音識别和機器視覺進行結合,采用多模态的人機互動技術将語音識别與計算機視覺結合的方式,讓機器人看着對方,聽對方說話,就可以在嘈雜的環境中精準識别使用者發出的聲音。

火了這麼久的 AI,現在怎麼樣了?

舉一個例子,假如在地鐵站買票,和賣票機器進行對話,同時因為後面也排着很多人,他們也會說話。這時通過視覺的方式,可以判斷哪一個人臉更大,進而識别買票的人說的話。下圖展示了基于人臉特征監督資訊的目标說話人語音分離主要算法處理流程。最後是提出的音視覺特征輸入和基于音視覺融和的信源掩碼估計模型。

  • 音視覺融合技術應用

音視覺融合技術已經在很多生活場景中得到廣泛應用。覆寫了上海的主要交通樞紐,如地鐵站,虹橋火車站、上海火車站、上海南站、虹橋機場和浦東機場等。從 2018 年 3 月至今累計服務旅客超百萬人。此外,2018 年 9 月杭州雲栖大會上達摩院和肯德基合作的基于多模态技術的智能點餐機在 3 天内完成了4500 單。2019 年 8 月釘釘推出了搭載多模态互動技術的智能辦公硬體新品 M 25,可以在嘈雜的聲音環境下使得互動更加有效。

四、視覺技術

1.圖像搜尋

視覺技術中最核心的就是圖像搜尋的識别,同樣也經曆了很長的發展過程。在早期的 90 年代初期是基于全局資訊的底層特征進行搜尋,如将圖像顔色的資訊做分布,但這種方法的精度非常糟糕,如 ImageNet Top 5 隻達到了 30%。到 2000 年初,大家開始基于局部的特征編碼特征做圖像的搜尋和識别,精度達到了 70%。但是其中局部資訊都是由人工确定,如果出現人沒有見過的特征,則無法有效提取。到了 2010 年左右,大家開始使用深度學習的技術,自動的提取局部資訊特征,進而精度達到了 92%,使得圖像搜尋技術完全可以應用于商業場景。

火了這麼久的 AI,現在怎麼樣了?
  • 圖像搜尋和識别發展曆程

目前,圖像搜尋面臨的挑戰主要有三點,首先資料越來越多,10 億級别的訓練資料。同時還要處理上億級别的分類。而且模型的複雜度也越來越高。

火了這麼久的 AI,現在怎麼樣了?

為了解決以上挑戰,阿裡推出了九鼎,一種大規模 AI 訓練引擎。九鼎是大規模訓練載體和專家系統,涵蓋了視覺、NLP 等領域。九鼎由兩部分組成,首先是通訊,因為所有大規模訓練都需要多級多卡,如何有效的通過多級多卡提升模型的訓練,減少通訊的代價是較為重要的問題。另外一部分是優化算法部分,如何做好分布式的優化問題同樣也是目前遇到的較大的挑戰。這種大規模訓練引擎可以處理大規模資料的分類并達到很好的訓練效果。ImageNet ResNet50 可以在 2.8 分鐘内就可以訓練完成。若處理 1 億級的 ID,10 億級别的圖檔分類可以在 7 天内訓練完成。

火了這麼久的 AI,現在怎麼樣了?
  • 圖像搜尋應用

圖像搜尋在實際生活場景中被廣泛應用。目前,拍立淘可以處理超大規模的圖像識别和搜尋任務,其中有 4 億+ 的商品,30 億+ 的圖檔,和 2000 萬+ 的活躍使用者。可以識别 3000 萬+ 的實體,覆寫了 SKU 商品,動物,植物,車輛等。

火了這麼久的 AI,現在怎麼樣了?

天巡是用于遙感圖像識别分析的應用,可以進行大規模的遙感影像訓練,拖動遙感圖像的路網提取,地物分類,新增建築物識别,違章建築識别等任務。

火了這麼久的 AI,現在怎麼樣了?

2.圖像分割

圖像分割指的是從一張圖中将 object 分割出來。傳統的圖像分割方法是如下圖左側,分割成很多像素,看每個像素之間的相似度,相似的像素聚合起來一些區域,再輸出。但傳統的圖像分割技術無法學習到語義的資訊,隻能知道圖中的 object,但不知道 object 是什麼物體。另外,因為采用了無監督的學習,在分割邊角時精度不高。

火了這麼久的 AI,現在怎麼樣了?

而基于深度學習的分割技術基于監督學習,将很多訓練樣本接入技術中。同時還可以得到分割的結果和分類的結果,了解每個像素的執行個體歸屬。而且在大規模的資料前提下,編碼器和解碼器模型可以精細的分割 object 的邊緣。

火了這麼久的 AI,現在怎麼樣了?
  • 圖像分割應用

阿裡将圖像分割技術應用于淘系的全類目商品中,可以自動生成商品白底圖,提速商品釋出。

火了這麼久的 AI,現在怎麼樣了?

另外,還可以用于服飾的素材拼圖場景中,商家會提供模特素材,利用分割技術,将模特深圳的服飾進行分割,自由組合搭配。

火了這麼久的 AI,現在怎麼樣了?

3.模型壓縮

目前,深度學習技術已經廣泛應用于多種行業中,同時也遇到了很多挑戰。首先,深度學習模型越來越複雜,其中計算量在不斷增長,達到了 20G FLOPS+,還有不斷增加的連接配接。模型變大那就需要較大的 memory 進行存儲,找到合适的 Device 将是非常困難的事情。即使有了 Device,模型也需要跑很長的時間。此時,模型的壓縮技術就顯得非常重要,它可以将幾十 G 的模型壓縮到幾十 M,使用者可以在任何的 Device 上運作模型,無需等待很長時間。

模型壓縮已經發展了很長時間。如下圖中的模型,可以将模型中不重要的邊去掉,進行稀疏化。然後對模型的邊進行量化,給不同的權重。最後對模型進行分支,改變結構。FPGA 的加速方案可以在相同 QPS 條件下,相對 GPU 提速 170 倍(RESNet-18 僅需 174us)。

火了這麼久的 AI,現在怎麼樣了?

模型壓縮本質上是改變模型的結構。模型結構的選擇是比較難的問題,它不是一個普通的優化問題,不同結構之間是一個離散的空間。阿裡提出出的 cargotainer 方法,可以更快速的擷取準确的 pseudo gradient,在 2019 年 ICCV 大會舉辦的低功能耗圖像識别挑戰(Low-Power Image Recognition)中獲得了冠軍。

火了這麼久的 AI,現在怎麼樣了?
  • 模型壓縮技術的應用

基于 FPGA 的解決方案在盒馬自助收銀機得到了應用,利用機器視覺方法識别是否漏掃商品,GPU 成本縮小到 1/2。同時自研的高效檢測算法,可以在 1 秒内完成多種行為分析任務,掃碼動作分類準确度達 90% 以上。場景分類準确度達 95% 以上。

火了這麼久的 AI,現在怎麼樣了?

4.目标檢測

另外,機器視覺技術可以應用與視訊資訊的結構化任務中,檢測目标物體,跟蹤識别。目标檢測和跟蹤識别任務主要的處理流程如下圖,對視訊進行解碼,目标檢測,目标跟蹤,高維特征提取,屬性提取,存儲為結構化資料。

火了這麼久的 AI,現在怎麼樣了?

目标檢測技術也出現了很長一段時間,傳統的檢測方法是 HoG,DPM 等,依靠 Handcrafted 特征,即人工選擇特征。這種方法的問題在于魯棒性差,無法泛化,計算量備援度高。而現在也出現了很多基于深度學習的目标檢測方法,如 Faster RCNN、SSD、RetinaNet、FCOS 等。它們的優點是機器可以替代人工識别的特征,可以對物體的尺寸,外觀的變化更加魯棒,泛化性能好。如下圖中的折線圖,可以發現從 2008 年到 2019 年,從較低的準确度(大約 20%)提升到了 83% 左右。

5.目标跟蹤

目辨別别出來後還要進行跟蹤。在目标跟蹤中遇到的挑戰是人是動态的,在行動的過程中會被其它物體或人遮擋,這檔過程中會丢失目标,如下圖中的紅色衣服的人會被紫色衣服的人遮擋。傳統的方法是根據 position 進行比對,但在上述擁擠場景中,預測位置難以精确,比對很容易出現錯誤。而基于深度學習的方法是抽取 appearance feature 進行比對,預測結果更加魯棒。

火了這麼久的 AI,現在怎麼樣了?
火了這麼久的 AI,現在怎麼樣了?
  • 目标檢測和跟蹤應用

目标跟蹤的應用場景一般在新零售場景中。購物中心和品牌門店需要對客流及場内行為進行深入洞察,建構線下人、貨和場地的資料關聯。提升線下營運的管理效率,提升消費者體驗,最終促進業務的增長。

火了這麼久的 AI,現在怎麼樣了?

另外,目标跟蹤技術用于案發場景下。但因為案發場景中視訊都是非常長時間的内容,難以人為檢查識别。那麼能否将整個 24 小時的資訊濃縮後在幾分鐘内看完。其中需要利用目标檢測和目标跟蹤的技術,識别人和物,跟蹤軌迹。将不同時間的軌迹一起播放,如果對某一個或某一類軌迹感興趣可以點選進去,看到這類的視訊内容,大大減少了觀看視訊的時間。

火了這麼久的 AI,現在怎麼樣了?

總結

可以發現 AI 技術的發展離不開大量資料的支援,是以目前的人工智能技術還是以資料為驅動。如機器翻譯和專業的翻譯人員相比,人在翻譯的時候并不是完全以資料為驅動,不需要閱讀上億的資料,更多是基于 Knowledge 的方法,高效的處理已有的資訊。是以在未來,如何讓機器從 Data Driven Approach 走向 Knowledge Based Approach 還需要進行不斷的探索和努力。

繼續閱讀