天天看點

專訪新浪微網誌黃波:千人千面,機器學習賦能使用者資訊流消費

專訪新浪微網誌黃波:千人千面,機器學習賦能使用者資訊流消費

黃波,微網誌機器學習平台技術負責人、資深架構師,負責微網誌機器學習平台和Feed算法系統。他畢業于中科院計算所,參與研究了高性能計算和算法優化;并曾供職于百度,參與開發了分布式檔案系統。2010年加入新浪微網誌,目前專注于機器學習、深度學習、高性能計算、大資料處理等領域,緻力于打造機器學習平台和深度學習平台,将機器學習技術和分布式計算應用于微網誌 Feed資訊流、推薦、反垃圾等業務場景。

<b>跬步千裡,微網誌深入應用新興技術</b>

新浪對于大資料和人工智能技術的應用,最早可以追溯到2008年,并且随着技術的深度應用在不斷發展完善。

2008年左右,新浪開始搭建Hadoop叢集,建立資訊系統收集公司級的基本資料,奠定了大資料系統的基礎。2009年起,随着微網誌的興起和壯大,越來越多的使用者、内容和行為等業務資料沉澱下來,奠定了大資料的業務資料和業務場景基礎。2011至2012年,微網誌開放平台讓微網誌資料和第三方資料能夠互通。2013至2014年,成功建構了大資料Darwin平台,用于梳理和挖掘使用者資料及行為資料,刻畫了微網誌使用者的使用者畫像,并對微網誌短文本進行分析了解,形成了内容标簽等内容了解體系;同時在技術上,以分布式離線處理為基礎,成功引入了實時流計算,讓資料能更快發揮價值,進而更好地服務于業務。2015年起,微網誌大資料和Feed、熱門微網誌等業務充分結合;2016年,開始強調機器學習和人工智能挖掘資料價值的能力在業務中的作用,并開發搭建微網誌的機器學習平台和深度學習平台。

毋庸置疑,大資料、機器學習、人工智能已經逐漸滲透到了微網誌的各大業務中。然而,這一過程中不可避免地遇到了一些技術挑戰。黃波表示,分布式離線計算技術的挑戰就是其一,是以微網誌緊跟業界Hadoop生态的發展,由Hadoop 1.0更新到Hadoop 2.0,引入Hive、Pig、Sqoop、HBase、Yarn、Spark等元件,解決了大資料離線處理的問題。其次是實時流計算技術的挑戰,基于此微網誌選擇了依靠開源社群的發展,包括Storm、Spark Streaming等技術的發展和成熟。“目前遇到的最大問題是大規模機器學習和深度學習技術”,為了從容應對這一難題,微網誌一方面持續深入和阿裡雲的合作,引入數加、EMR、HPC、PAI等成熟系統來加快技術發展速度,另外一方面還依靠了開源社群的Glint、Angel、Spark、Tensorflow等機器學習技術,自研和完善參數伺服器WeiPS、機器學習程式設計架構WeiFlow來滿足微網誌機器學習和深度學習平台的業務需要。

<b>千人千面,人工智能助力億級規模的使用者畫像</b>

資料是人工智能的基礎。微網誌充分發揮了作為社交媒體的先天優勢,以其平台所擁有的億萬級圖檔、視訊和文本資料,刻畫出了微網誌龐大的業務體系和使用者畫像。

黃波介紹,微網誌資料有内容資料和使用者資料這兩類。内容資料包括圖檔、視訊和文本等。對于這類資料的處理方法,一是将内容資料映射到微網誌内容标簽體系(微網誌内容标簽體系分為三級内容标簽,例如:一級的體育;二級的籃球;三級的金州勇士等),可解釋性強,但存在一定歧義,準确性有待提高。另一種處理方式是對内容做embedding,通過embedding向量做比對或推薦,能夠對内容更深入地了解,但是解釋性較差。内容資料還有一個獨特的點是内容釋出人,即發博者。在長期的實踐中可以發現,社交網絡和社交媒體中的發博者有着相對穩定的特征,在業務場景下簡單有效。使用者資料包括使用者靜态資料和使用者行為資料,通過挖掘使用者性别、年齡、地域、注冊時間、賬号類型、是否橙V等靜态特征建構使用者靜态畫像,通過分析使用者在業務産品中的特定行為來建構使用者行為畫像,例如使用者一級興趣标簽、使用者實時興趣标簽等。

以上所述的内容資料和使用者資料就是業界常說的特征,通過與模型的結合,能為微網誌Feed資訊流、熱門微網誌等場景帶來顯著的效果提升。在這其中,人工智能技術的部署應用,也為微網誌的整體技術架構帶來了深刻的變化。

人工智能技術的引入,讓微網誌的離線系統、實時系統、線上系統融合得更加緊密。線上系統的業務資料化為機器學習提供了最基礎的業務樣本資料;離線系統的模型訓練充分利用了分布式計算能力,加強了對大資料的處理和了解;離線訓練出的模型加載到線上系統并應用于業務系統中,能夠為業務發揮作用;同時,實時系統不僅可以提供實時特征,而且還能提供機器學習線上訓練服務,有效保障了特征和模型的時效性,進而良好保障了業務效果。以微網誌Feed資訊流為例,基于對内容資料的充分了解和對使用者畫像的精确刻畫,利用大規模機器學習模型排序能夠有效控制大量低質内容,深入挖掘出使用者感興趣的個性化内容,進而改善微網誌Feed資訊流的使用者體驗。

此外,微網誌特别設立的機器學習實驗室也在深入研究人工智能技術潛在的應用價值。“追蹤前沿技術,保持技術領先;落地微網誌業務,展現技術價值”,這是微網誌機器學習實驗室的初衷和使命,其主要的研究方案包括機器學習算法、推薦算法、自然語言了解、計算機視覺、語音識别、機器學習系統、分布式計算系統、高性能計算系統、大資料技術等。黃波提到,目前在大規模機器學習排序算法、深度學習排序、深度學習推薦、文本處理、圖檔識别、機器學習平台、深度學習平台等方面都已經取得了不錯的進展,特别是微網誌大規模機器學習排序算法在微網誌Feed資訊流、熱門微網誌中的應用和全量上線,取得了顯著的效果。

<b>返璞歸真,技術落地創造實踐價值</b>

時下的社交媒體大趨勢,都在緻力于通過大資料、人工智能來更全面地了解使用者畫像、更深刻地了解内容、更細緻地結合業務場景,進而提高資訊分發效率,為使用者提供更好的内容消費體驗。

微網誌實踐表明,人工智能技術能夠更好地促進産品和業務的發展。在微網誌,大資料、人工智能等新興技術廣泛地應用到微網誌Feed資訊流、熱門微網誌、Push消息推送、圖檔推薦、反垃圾等業務中,并取得了不俗的效果。産品和業務目标的了解是基礎,在目标了解的基礎上再将産品場景、業務目标、使用者行為、内容資料等資料化。資料化之後,技術人員利用大資料政策、機器學習模型等方法拟合或逼近業務資料目标,這個過程通常需要借助大規模分布式計算和高性能計算來疊代逼近。同時也要求盡可能早地将這些政策或模型灰階上線到線上系統中,便于收集灰階測試資料,對比評估業務線上效果。資料化是指産品全流程的資料化,包括機器學習模型上線灰階對比的資料,用資料來說明效果。

<a href="https://yq.aliyun.com/articles/211984" target="_blank">專訪iDST NLP負責人——淘寶内容搜尋、評價歸納的幕後英雄</a>

<a href="https://yq.aliyun.com/articles/205675" target="_blank">專訪阿裡雲易立:從實踐積累到需求沉澱,容器技術必将引領主流</a>

<a href="https://yq.aliyun.com/articles/204339" target="_blank">專訪阿裡雲異構計算負責人:異構計算,GPU、FPGA、ASIC晶片将三分天下</a>

<a href="https://yq.aliyun.com/articles/201988" target="_blank">專訪阿裡雲量子技術首席科學家施堯耘:量子計算前途輝煌而任重道遠</a>

<a href="https://yq.aliyun.com/articles/191638" target="_blank">專訪iDST華先勝:城市大腦,對城市的全量、實時認知和搜尋</a>

<a href="https://yq.aliyun.com/articles/152072" target="_blank">雲栖大會變遷史(2009-2017)</a>

<a href="https://yq.aliyun.com/articles/164548" target="_blank">圖說曆屆雲栖大會精彩内容(長圖鑒賞)</a>

繼續閱讀