天天看點

32篇論文、7大事業群,這是騰訊在斯德哥爾摩的AI之夜

32篇論文、7大事業群,這是騰訊在斯德哥爾摩的AI之夜

據機器之心了解,今年騰訊共有 17 篇論文被 ICML 2018 接收,15 篇論文被 IJCAI 2018 接收。本次活動設有三個特邀 keynote,以及五個分論壇,介紹了騰訊在人工智能領域的多元探索和全方位布局。

IJCAI 第 27 屆回顧和工程化的标準建立

作為特邀嘉賓,香港科技大學主任教授,騰訊微信-港科大人工智能聯合實驗室主任楊強教授在開場演講中表示,「中國隊雖然沒有進入足球世界杯,但我們進入了人工智能的世界杯,能有今天非常不易。」

32篇論文、7大事業群,這是騰訊在斯德哥爾摩的AI之夜

1969 年,人們在華盛頓舉辦了第一屆 IJCAI 大會,自那時起,中國學者的出席人數和論文送出量逐年遞增。1995 年,參會的韓家炜、張钹等教授還在一起讨論該如發揚中國學界的聲音,而中國科學院的教授更為了中國承辦學術頂會四處奔走。快進到 2018,中國學者遞交的 IJCAI 文章數目已經超過了美國同行,并在一些子方向的研究上開始領先。

楊強教授提到今年 IJCAI 将頒發首個以人工智能領域創始人之一馬文·明斯基命名的 Marvin Minsky Award,獲獎團隊是 Demis Hassabis 帶領的谷歌 AlphaGo 團隊。他鼓勵台下觀衆,「目前我們看不到 Minsky 獎項花落中國。這個才是真正的 AI 世界杯,能不能入圍取決于下一代的努力。」

親眼見證人工智能過去十幾年在發展上的「三起兩落」,楊強教授強調了工程化落地的重要性,并認為我們應當謹防下一次泡沫來臨。

Petuum 公司創始人兼 CEO、卡耐基梅隆大學計算機學院教授,機器學習系副主任邢波在接下來的演講中表示,人工智能在工程化的路上任重道遠。舉一個例子,造飛機引擎的工程師會排列近上百萬個零件,進行系統的配置和更新。但算法的部署上還達不到相似的「制造」标準化,欠缺可操作性、可解釋性和可重複性。

32篇論文、7大事業群,這是騰訊在斯德哥爾摩的AI之夜

該如何建立這個工程流程呢?「例如一個最簡單圖像分類的回歸算法,現在沒有統一标準或者用什麼樣的 API 來進行工程化。在工程化的過程中,為了提升模型,你可以加入貝葉斯先驗條件,加入正則化,加入限制,還可以把不同的模型統一起來。這是一種思考方式,模型本身是可拆分、可組合的。好處是所産生的算法和模型能夠更加适合做分析,能夠提供一個導向性。我們還要考慮算法以外,用一個具體問題的适用性,把工程化思路走得更遠。」

邢波教授補充道,「我們可以把這個過程收內建一個個庫,編寫成一個手冊。一旦形成嚴格的工程習慣,把複雜的流程變成選擇項。」

另一個問題是人工智能可解釋性,包括資料可解釋性、模型可解釋性、推理可解釋性、和過程可解釋性。邢波表示,如果人工智能是一個大系統,從接觸原始資料開始,它包羅的方面就已經非常複雜了。目前模型的使用上還是缺乏清晰的因果關系,還處于一個煉金術階段,離化學和化工廠這種可解釋性強還有差距。

騰訊技術落地的先鋒隊:優圖實驗室

騰訊優圖實驗室總經理、傑出科學家賈佳亞教授随後上台,向大家介紹了騰訊優圖實驗室(X-Lab)在人工智能技術上的發展。

優圖成立于 2016 年 4 月,分别在上海、深圳、合肥、香港設有實驗室,也将在北京和矽谷設立分支,擁有近 200 人的團隊。

相較于專注于前沿技術的 AI LAB,優圖的定位更加偏向于應用方向。「我們擁有 2 億兆人臉的資料庫,13 個方向識别方案,有超過 70 個産品使用的其技術。每天對外調用服務的次數超過 20 億次。」

賈佳亞教授認為,視覺具有可落地的特性,例如來到斯德哥爾摩,很多人都會拍照發朋友圈,使用相機美顔或者 P 圖軟體進行修改。「我們在選擇自己的課題時,緻力于做有趣,能看到、感受到、了解到的視覺。」

32篇論文、7大事業群,這是騰訊在斯德哥爾摩的AI之夜

賈佳亞教授将人工智能區分為前景視覺(Front-End AI),包括圖像編輯,處理和創作;以及背景視覺(Back-End AI),包括識别,分割和推理。

賈佳亞介紹到,「早在 2004 年,我還在微軟亞洲研究院的時候,就着手研究圖檔的背景轉移或者融合。到了 2017 年,我們重新撿起這個課題,用深度學習打磨了整個架構,做了一個大規模的訓練,實作了自動圖檔背景分割。在這之後,還可以對背景進行再創作。去年我們做了一個叫做 Makeup-Go 一鍵卸妝的功能,還原美妝加工前的素顔。」

在後端,優圖實驗室的内部系統可以實作幾千種物品的識别,在幾十億圖檔上訓練疊代,有非常高的精準度。優圖團隊同時是做自動駕駛場景分割最好的團隊,在各類比賽成績斐然。

在 keynote 分享結束後的分論壇中,騰訊 7 大事業群的代表分别結合各自不同的業務與參會的 AI 學者進行了分享交流。

騰訊「無量系統」:大規模模型訓練和預測服務

騰訊雲計算進階研究員袁镱在分會壇向觀衆介紹了騰訊的大規模模型訓練和預測服務業務。網際網路公司有大量的資料,整個傾向就是走大模型的路線,騰訊也開發了「無量系統」,支援 LR/FM/FFM/DNN 等多種常用模型的大規模訓練和預測服務,現已在手機浏覽器業務中投入使用。

32篇論文、7大事業群,這是騰訊在斯德哥爾摩的AI之夜

騰訊有 18-19% 的盈利依賴廣告收入,根據公司第一季财報顯示,這一部分的收入還在持續增長。網頁、圖文、視訊等推薦場景的廣告跟模型有很大的名額關系:把模型的 AUC 拉高百分之一,整個點選率就會提升百分之一,對于整個公司來說是億級收入的提升。

LR 模型百億級别,DNN 模型是千億級别。要訓練這樣的模型,所需要的參數量非常的大,模型的規模是到 PB 級别的。超大規模模型在訓練和上線服務都面臨着很大的挑戰。首先,該如何快速訓練這樣的模型?首先需要有高性能系統的訓練,因為公司沒有資源等十天半個月去疊代。其次,TB 模型的大小是幾十個 G,這樣大小的模型上線可能機器都裝不下這個模型。

據袁镱介紹,騰訊無量系統基礎定位就是做超大規模的模型訓練和整個平台的上線,已經能夠完成百億樣本 / 百億參數模型的小時級訓練能力,并且已經建構起自動化模型管理系統「無量模型管理」,能夠離線訓練任務,線上訓練叢集和線上預測服務之間無縫運轉。

推薦系統在内容領域(新聞、視訊)的應用和前沿研究

資料專家淩國惠在分論壇介紹了資料分析以及 AI 技術在微信生态系統中的應用和前沿研究。

32篇論文、7大事業群,這是騰訊在斯德哥爾摩的AI之夜

據介紹,微信擁有超過 10 億的月度活躍使用者,使用者與使用者的連接配接形成龐大的複雜網絡,在此複雜網絡上,進行了社群識别、強關系、弱關系、影響力、傳播、社會分層等研究,廣泛應用在社交廣告、線上金融、以及傳播預測等業務上。其中社交 Lookalike(相似人群拓展)系統,很好融合了上面挖掘的社交資料,協助微信廣告投放到更有針對性的目标使用者群體,在廣告效果尤其在互動率(對廣告點贊、評論)方面,有着顯著表現。

除了上述的廣告領域,AI 技術也廣泛應用在微信業務中:微信智聆和微信翻譯是業界領先的 AI 引擎,每天為 10 億使用者提供高品質語音識别和翻譯服務,并且通過微信開放平台接入了大量的小程式和第三方 APP;微信搜一搜和看一看使用 AI 技術為使用者提供精準的搜尋服務和個性化閱讀推薦服務;微信智聆和微信智能對話系統通過騰訊雲小微平台對外開放,幫助智能硬體廠商實作語音人機互動,目前已經應用在數十家硬體廠商的産品中。

新聞算法總監範欣介紹了騰訊新聞中的推薦架構、算法設計、以及創新業務算法。騰訊着重研究對新聞内容了解、個性化推薦,以及幫助使用者實作沉浸式一站式的閱讀體驗。近年來,騰訊的内容從編輯内容進入專業内容+自媒體時代,現已擁有千萬級别的内容池。使用者消費的内容也從單純的圖文,進入了多樣化的模式,包括短視訊、知識問答、話題讨論、名人号和評論等等。範欣表示在輔助内容生産的生态進化基礎上,還需要幫助使用者實作「一站式的閱讀體驗」。

從技術上來說有三個部分:1)深度了解挖掘内容,完善内容興趣表征的建構;2)實作多模态模型的結構化,通過建構新聞内容領域的知識圖譜,結合内部和外部資料做事件發現和聚類;3)精準建構使用者畫像,做多元度表征和基于語義、行為的興趣挖掘。這種整合将擺脫基于少數次元比對的方法,根據内容、使用者、環境整體的比對,提供更合理、更有價值的個性化内容。

深度學習時代的遊戲和社交廣告

遊戲和廣告是騰訊最大的收入來源。從 2004 年開始營運,騰訊遊戲在 PC、Mobile 等多平台釋出超過 300 款不同遊戲,在使用者數量和收入上已是世界第一。Turing Lab 總監張力柯,遊戲 AI 專家殷俊,資料挖掘進階研究員李英傑分别就深度學習在遊戲中的應用等話題進行了分享。殷俊表示現在将 AI 技術應用到遊戲工業的研發體系中會遇到很多新問題。

32篇論文、7大事業群,這是騰訊在斯德哥爾摩的AI之夜

針對聽衆提出的「能否不再使用傳統的行為樹和人為規則,而對原始遊戲畫面直接采用增強學習/模仿學習等算法來自動實作遊戲 AI」這個問題,張力柯認為,盡管學界近年來在早期 Atari 遊戲上使用深度增強學習算法取得了不小突破,但早期遊戲多是簡單的 2D 畫面,玩法單一,并不存在現代遊戲中大量的 3D 畫面特效幹擾、龐大的狀态空間和多樣化的局部獎勵等等,而這些都是在實際應用上需要付出巨大努力去克服的技術挑戰。在這次 AI 大會中,很多學者開始嘗試用 Imitation Learning 和 Inverse Reinforcement Learning 等方式來解決。就目前而言,不管是無人駕駛還是遊戲自動測試,通常都采用多種技術互補的方案。

針對遊戲使用者體驗的方向,李英傑提出了一個玩家成長路徑的問題,「不同類型玩家玩同一個遊戲的方式将會大不相同。以王者榮耀為例,使用者都是從三個基礎英雄出發,如何演變成各人不同的後續英雄使用序列?是自身個性還是關鍵時刻的事件主導,要用什麼模型和抽象層級去表現這個路徑?」

特邀嘉賓南大計算機系的俞揚教授補充道,強化學習在工業應用上還有很多需要解決的問題:譬如在遊戲裡,機器人玩家是很容易被辨識出來的,那麼讓 AI 在呈現上更逼真,貼近人類玩家也是一個重要的研究方向。

來自騰訊社交廣告的機器學習專家周星、劉海山就廣告場景下的深度學習技術應用做了詳細介紹。總體上,AI 能力已經融入到騰訊社交廣告系統的各個環節中,包括對文本的自然語言處理,對廣告素材的分析挖掘,廣告檢索和排序等。兩位專家從智能定向、智能出價和智能創意三個方面做了進一步的技術闡述。

智能定向方面,騰訊社交廣告正在嘗試打破這種傳統,通過機器學習技術,自動了解廣告,進而實作閱聽人和廣告的精準比對;智能出價方面,兩位專家詳細介紹了 oCPA 的能力和實作方式,廣告主隻需要提供希望的目标轉化成本,系統會基于目标轉化成本和 pCVR(點選到轉化的預估機率)對廣告線上智能實時出價。為了做到精準的預估,騰訊社交廣告開發了可以訓練千億樣本和特征的大規模離散深度學習平台 Thousand Sunny,自上線以來廣告主轉化率提升 10%。智能創意方面,重點闡述了動态商品廣告及其背後的技術,講解了如何通過深度學習技術實作廣告商品的千人千面,以及廣告素材的自動生成。

此外,在分論壇中,深海實驗室負責人辛願面向與會者交流了騰訊金融在 AI 領域裡,尤其與 decentralized training、privacy preserving、malware and anomaly detection 相關的應用情況和前景。

探索前沿技術與業務:AI Lab

騰訊 AI Lab 計算機視覺中心負責人、傑出科學家劉威博士,向大家介紹了 AI Lab 在人工智能上前沿技術與業務的探索。并且也計算機視覺的研究與落地成果作為代表,與參會者進行了題為「多媒體 AI」的技術分享。

騰訊 AI Lab 是騰訊的企業級 AI 實驗室,于 2016 年 4 月在深圳成立,目前在中國和美國有 70 位頂尖研究科學家及 300 位應用工程師。騰訊 AI Lab 強調研究與應用并重發展,基礎研究關注機器學習、計算機視覺、語音識别及自然語言處理等四大方向,研究論文已覆寫國際頂級學術會議。據了解,今年騰訊 AI Lab 共有 16 篇論文被 ICML 2018 接收,21 篇文章被 CVPR 2018 接收,18 篇文章被 ECCV 2018 接收,5 篇文章被 ACL 2018 接收。相應的技術也落地于騰訊公司的多個産品中。

32篇論文、7大事業群,這是騰訊在斯德哥爾摩的AI之夜

針對計算機視覺中心的研究,劉威博士介紹到,計算機視覺中心的目标是在多媒體 AI 的研究領域上達到世界一流水準,探索 vision+X 的前沿學術研究和相應技術在騰訊産品中的落地。

32篇論文、7大事業群,這是騰訊在斯德哥爾摩的AI之夜

計算機視覺中心通過不斷探索計算機視覺中的底層、中層、高層以及 AR/3D 等問題,緻力于提升公司在學術領域和技術産品領域的品牌價值。底層視覺計算主要提升圖像/視訊品質。中層視覺問題主要提升圖像/人臉/視訊識别的能力,AI Lab 視覺中心在人臉的檢測與識别屢次重新整理公開資料集合上的性能,相應的技術也落地于公司的不同産品中,日調用量>6 億次。高層視覺更聚焦于圖像/視訊的深度了解,AI Lab 視覺團隊,在 MSCOCO 圖像描述公開資料集合上,排名第一。并且在視訊描述生成和視訊熱度預測上進行了前沿技術的探索,在 CVPR 2018 和 WWW 2018 發表多篇文章。在 AR&3D 方面,AI Lab 中心也探索了 SLAM 技術在終端上的應用與技術的探索。

計算機視覺中心 2018 年迄今論文發表 17 篇 CVPR(1 篇 oral,5 篇 spotlight),14 篇 ECCV,4 篇 ICML,2 篇 SIGIR,1 篇 WWW,4 篇 IJCAI,4 篇 AAAI,1 篇 PAMI,1 篇 IJCV。

騰訊 SNG 的量子計算+機器學習

2017 年底,騰訊社交網絡事業群(SNG)首次公布量子實驗室,香港中文大學教授張勝譽出任傑出科學家。正如當時 SNG 總裁湯道生所說的:「騰訊 SNG 正在大力投入技術,組建由優圖實驗室、音視訊實驗室和量子實驗室三大實驗室。」在 TAIC 上,SNG 的量子實驗室與優圖實驗室與參與該分論壇的 AI 學者們進行了充分的交流。

32篇論文、7大事業群,這是騰訊在斯德哥爾摩的AI之夜

量子實驗室的負責人張勝譽教授用詳細的方程和圖解給大家介紹了機器學習在量子計算方面的應用,以及量子計算對于機器學習的了解和提高上可能起到的作用。優圖實驗室副總經理吳運聲講解了計算機視覺的落地應用,并以核身産品為案例,詳細介紹了優圖如何結合落地需求開展前沿研究、如何在落地中有效進行研究和工程的協同,以及優圖在研究落地中的系列基礎設施建設。

據機器之心了解,優圖實驗室的 3 篇論文被 IJCAI 2018 接收,SNG 資料中心的 NLP 團隊騰訊知文同樣有 3 篇一作長文被接收。

本文為機器之心原創,轉載請聯系原作者獲得授權。

繼續閱讀