天天看點

漆遠:小資料學習和模型壓縮存挑戰,場景成為 AI 技術發展關鍵

 “螞蟻金服是一家技術驅動的公司,我們做的事情,是使 ai 技術成為普惠金融的支點。”螞蟻金服副總裁、首席科學家漆遠博士,在有中國“ ai 春節”之稱的新智元2017開源·生态ai技術峰會上表示。

大約一個月前,在北大“人工智能前沿”系列課程的講堂上,作為特邀演講人的漆遠已經将 ai 技術和普惠金融的概念結合到了一起。在新智元 ai 技術峰會上,漆遠再次強調:“螞蟻金服核心的關鍵點在于普惠的金融服務,而實作普惠金融服務依靠的技術就是人工智能和大資料。”

場景!場景!場景!

從技術到落地,ai 的場景化應用成為本次新智元技術峰會上的一個關鍵詞。漆遠指出,在杭州,螞蟻金服和城市政府直接對接了超過100項市政服務,比如司機闖紅燈,可以通過支付寶進行直接賠付。“再舉幾個例子,支付寶可以在杭州城區購買地鐵票;當芝麻信用超過一定分數時,人們可以免押金入住酒店,免押金租房;人們可以使用支付寶在中醫院挂号,可以乘坐公共汽車。其實所有這一切,都是依托場景。”

漆遠:小資料學習和模型壓縮存挑戰,場景成為 AI 技術發展關鍵

而杭州的變化隻是中國萬千城市的一個縮影,“在浙江,一年有6億人次享受城市服務,全部通過手機實作。例如,95%的超市、便利店可以用支付寶進行付款。這些資料背後,可以看到一個人的吃穿住行等方方面面。如此觸達的條件實際上為我們奠定了非常堅實的基礎,能夠讓我們把技術和場景結合起來,提供真正有價值的服務。”

漆遠:小資料學習和模型壓縮存挑戰,場景成為 AI 技術發展關鍵

“大家會問,講 ai 為什麼要講這些?最近有人寫了一篇文章,講 ai 的娛樂化趨向。這其實是講了一個 common sense,就是做 ai 離不開場景……我相信技術是第一生産力,關鍵是怎麼落地,在商業場景裡發揮出價值。”

漆遠:小資料學習和模型壓縮存挑戰,場景成為 AI 技術發展關鍵

漆遠認為,一個非常重要的經驗是,“不要為了做技術而做技術,一定要想到有商業價值的、有資料的場景,場景非常關鍵。否則,隻是在公司裡面閉門造車,做了也沒有用。如果是初創公司,這公司已經注定要完蛋。這其實是非常關鍵的一個point。比如說我在阿裡做第一個項目,是做參數伺服器,就是分布式機器學習平台。但是我們找的第一個應用點特别簡單,大家猜猜什麼場景會有商業價值?對,就是廣告。”

“于是我們就在ctr預估上采用了這個系統。因為這個系統隻要能提升1‰,就有很多收益;提升1% 的收益就更多。我們當時做這個項目,應用在雙11實時預測的使用者産品推薦上,後來變成了阿裡巴巴第一個大規模機器學習平台。是以一開始你要找到一個商業價值的落地點,如果我們做參數伺服器,同樣的技術,就是死路一條。在公司,在商業環境中,這肯定是沒有前途的。”

漆遠:小資料學習和模型壓縮存挑戰,場景成為 AI 技術發展關鍵

“又比如深度學習技術的應用。它帶來了圖像識别、語音識别、nlp 等領域的長足進步,但是它的落地點在哪裡?這就要問你的核心價值在哪裡。一開始我們就很具體,就做客服。大家可能覺得這不是一個sexy的行業,但是真正能做好就有巨大的商業價值。這同樣是要在場景中展現能力。”

而對于場景和資料、雲計算以及算法的關系,漆遠論述到,“其實很多公司今天都正在、或者已經完成國内網際網路領域的上半場角逐。之後,大家開始真正競争的是雲計算的能力,比如阿裡,比如螞蟻金服的雲,比如微軟和amazon的雲,而這背後其實就是資料。比拼的是誰的場景資料本身有價值。其實阿裡内部有一個比喻:資料是土壤,土壤上要蓋高樓,才能産生價值,這要靠算法,靠人工智能。要真正能把價值展現出來,而不是坐在金山上吃饅頭。我們需要通過人工智能,讓使用者産生的社會資料發揮價值,并将有價值的服務帶給使用者。場景的 vertical domain 非常重要。場景一邊為我們帶來資料,一邊為使用者帶來真正有價值的服務。”

從智能客服到保險業

在金融服務這一大場景下,漆遠特别以其中的智能客服、個性化産品和資訊推薦、保險及自動核賠等多個小場景為例,展現了ai 技術的應用及産生的價值。

漆遠:小資料學習和模型壓縮存挑戰,場景成為 AI 技術發展關鍵

“螞蟻金服正在建構人工智能方方面面的能力和應用,我們在能力上的配備還是比較标準的——機器學習、自然語言處理(nlp)、圖像識别、語音識别,尤其是語音識别,完全使用的是阿裡集團自己的語音識别能力。螞蟻金服也在開發許許多多的商業應用。”

漆遠:小資料學習和模型壓縮存挑戰,場景成為 AI 技術發展關鍵

“在今天有件事情已經變成共識——如果做平台,沒有業務都是會死掉的,這是我們當時戰略官的名言。在螞蟻金服,我們有非常豐富的場景,從信用芝麻分、租車到貸款消費貸、風險控制、營銷、智能助理等等,技術本身、資料和商業場景有非常好的結合。”

漆遠:小資料學習和模型壓縮存挑戰,場景成為 AI 技術發展關鍵

智能客服

“智能助理在螞蟻金服有很多的例子,聊天機器人不是我們的重點,我們的重點在産品知識問答,比如金融産品,完成訂電影票或者旅行甚至訂餐,還有金融服務,比如選擇哪個保險比較适合。

“在螞蟻金服,一個标準化的機器人應用就是客服。客服項目在螞蟻金服可以說是第一個标杆性的人工智能落地項目,它一開始是典型的人力服務工作,在成都客服中心有幾千人,每年雙11接電話非常繁忙。我們在2015年要做智能客服,使用人工智能算法提升整體客服效率。我們做了大約半年,自助率從60%一下子升到94%,2016年自助率高達97%,去年雙11最忙的時候,客服小二實際上非常輕松。今年我們有了一個新的标杆性的名額,兩三個星期前剛剛做到。這個新的名額就是不光要自助率高,還要把服務的品質提高,我們要更好地解決問題。兩周前,我們已經做到機器人的問題解決率達到了73%,超過了人的線上解決率71%。這是一個标杆的提升。

漆遠:小資料學習和模型壓縮存挑戰,場景成為 AI 技術發展關鍵

ppt上顯示的是三個簡單的真實app展示,展示了機器人本身是怎麼來回答問題的;第二,在你沒有問問題之前,不靠語音信号或者nlp輸入資訊,而是通過使用者的行為軌迹自動判斷目前可能的問題在哪裡,系統會根據使用者的行為軌迹做出時間訓練模型進行分析;第三,人工+智能。我并不是說用機器全部代替人,而是什麼時候用人,怎麼用機器把人的效率提升。這裡我以我們的客服小二和工作台為例,怎麼把好的小二的經驗變成工作台自身的一部分,利用他們幫助其他的小二工作。這就叫智慧工作台,大規模提升了人類“小二”的服務品質。不光減少了人力,這個項目做了不到半年時間,我們公司統計減去人的成本,減去gpu的成本,公司省下來一個億多的資金。在螞蟻金服整體業務迅速擴張的情況下,我們的客服部門人員一直在減少,而所有其它業務人員都在增加——隻有客服人員一直在減少,可以看到這個技術的效用。”

漆遠:小資料學習和模型壓縮存挑戰,場景成為 AI 技術發展關鍵

個性化産品和資訊推薦

“個性化産品和資訊推薦,這裡面有很多資料的融合問題,比如電商行為購買資料如何能夠幫助财富升值、資訊閱讀能不能幫助我們支付消費等等。

漆遠:小資料學習和模型壓縮存挑戰,場景成為 AI 技術發展關鍵
漆遠:小資料學習和模型壓縮存挑戰,場景成為 AI 技術發展關鍵

這裡面有一個比較簡單的思想,就是借助我們大量的資料源,建立比較大規模的深度學習網絡,把所有資料做一個隐含的表達,在一個空間裡面把很多資料源融合到一起。基于此,可以保護資料的隐私,也可以做出很多有意思的應用。

漆遠:小資料學習和模型壓縮存挑戰,場景成為 AI 技術發展關鍵

通過使用者屬性可以分析他的閱讀偏好,聚寶頭條咨詢和社群觀點推薦,比原來的算法直接提升了六倍的點選率。大家看ppt,這裡顯示的是使用者對緊身褲、連衣裙選擇偏好,漂亮女孩有什麼共性?其中一個是她們經常穿比較緊身的牛仔褲,她們中的很多人會購買手機螢幕服務,是以我們為這一人群開發了碎屏險的保險産品。這是個性化産品非常碎片化、但又非常長尾的應用的例子。”

漆遠:小資料學習和模型壓縮存挑戰,場景成為 AI 技術發展關鍵

保險及自動核賠

“保險業非常注重大資料應用,從人群定位到識别、從反欺詐到風險定價等等,從頭到尾貫穿着資料。運費險是一個現在比較經典的例子,我買東西要退,保險費隻要一塊多錢,但是每個人不一樣,我們做到了完全個性化。一開始這并不是差異化的,而是一口價,是以最初這個生意一直賠錢,後來我們把一個廣告的算法用到保險裡面,建立了一個人退貨機率和産品之間的關系——這其實和很多廣告非常類似,一個人點選廣告也有機率——計算之後産生新的保險産品,這個保險産品一天盈利就達到幾千萬。這是典型的碎片化但是極為廣泛的應用的例子。”

漆遠:小資料學習和模型壓縮存挑戰,場景成為 AI 技術發展關鍵

“自動核賠,使用者在手機上報被盜32塊錢。人臉識别之外下面還有很多算法和模型自動判斷是不是您,其實并不是隻做一個人臉識别。整體能夠大幅度提升效率。”

一些挑戰

對于 ai 技術應用中一些特别需要注意的問題和挑戰,漆遠此前有過精彩論述。

基于加強學習的對話系統

“其實在對話系統沒有很多資料的情況下,一開始你很難做加強學習,有可能你就隻能做一個規則技術。但再往後面,可能當你需要完成任務,以任務為目标的時候,你在做 task completion 的時候,就像下圍棋,你要完成任務,赢别人。這時候你和使用者其實是 interation。這個時候你可以考慮,怎麼來介入。大家也知道翻譯模型,對話系統很多用翻譯模型,我們叫做 seq2seq,也就是sequence to sequence。假如有一堆 sequence,假如是多輪對話,你能不能應付,就是一個 sequence 到另一個 sequence,再到另一個 sequence。這其實都是對技術的挑戰,對資料收集的挑戰,對資料标注的挑戰。”

小資料學習

“這個問題現在也越來越明顯了。其實今天講大資料,有點令人誤會。就很多場景下問題的複雜度而言,其實資料并不大。我們要分析風雲變幻的市場。就如剛才雷老師說,你看一個公司過去兩年的交易資料,其實一點不多,把季報全都加進來。其實一年就4份财報。在資料并不多的情況下,怎麼能夠把這個小資料學習的問題解決?”

推理和知識圖譜

很多問題需要你做推理,如果a發生了,到b,b發生,回到c,你怎樣把推理過程做好?今天,大家做了很多深度學習,比如說一個文本裡面,a會導緻b的發生,你把這個相關的答案找到。但是并不能推理出b到c和c到d。如果做知識圖譜,其實跟深度學習沒什麼關系,今天的深度學習圖譜其實是建了一個圖模型,然後把這個點一個一個往下推,而這兩個架構是完全分離的架構,這其實也是分裂的。大家能不能真正有一套機制,能有推理的功能?這其實既有理論上的價值,更有商業上的價值,巨大的價值。剛才已經提到知識圖譜了,大家其實作在有一系列算法講知識圖譜,knowledge graph,但是學術上發表的很多文章,工業上暫時是沒法用的。有一些算法——我就不說哪個算法了,有的還是我好朋友寫的——很難應用在工業上,為什麼呢?因為它基本上不能達到需要的準确性。

無監督學習

“另外,無監督學習也喊得比較響。這是跟小資料學習相關的。很多資料是有标注的,還有很多資料沒有标注,那怎麼能夠把沒有标注的資料都用起來,真正做到把資料的所有價值都真正展現出來?當然,在無監督學習和有監督學習中間,還有一個半監督學習(有一部分有标注)。我們怎麼把它們結合起來一起進行學習?這也是一個在今天的背景下非常有意義的方向。”

資料和模型的壓縮

“從工業界來講,更實用的是資料和模型的壓縮。剛才有人問我說深度學習能不能用于量化交易,尤其是高頻。我說高頻的話,如果深度學習有好幾層的模型,比如做圖像有 100 多層。而高頻交易希望在千分之一秒或者萬分之一秒之内把交易完成,這兩個互相沖突。工業很多應用非常在乎實時性,不能有大量 delay。怎麼能做得快呢?這就需要模型的壓縮,要用 hashing 等技術,這也是非常好的方向。”

漆遠在演講的最後總結道:我們在做從移動網際網路到雲計算到端的擴充。螞蟻金服核心的關鍵點在于普惠的金融服務,而實作普惠金融服務依靠的技術就是人工智能和大資料。

繼續閱讀