天天看點

面向高維稀疏資料場景,阿裡媽媽宣布開源XDL深度學習架構

據介紹,作為阿裡巴巴旗下的大資料營銷平台,阿裡媽媽基于自身廣告業務自主研發了深度學習架構X-Deep Learning(XDL),且已經大規模部署應用在核心生産場景。

阿裡媽媽表示,這也是業界首個面向高維稀疏資料場景的深度學習開源架構,突破了現有深度學習開源架構大都面向圖像、語音等低維連續資料而設計的現狀。

資料的高維稀疏性既是阿裡媽媽業務場景的重要特征,也是網際網路的衆多核心應用場景(如廣告/推薦/搜尋等)的特征,覆寫了大多數網際網路企業的資料應用模式。對于難以與BAT研發能力比肩的衆多網際網路公司而言,阿裡媽媽表示工業級深度學習架構XDL及内置算法方案的開源,将助力各大公司的技術更新,大大提升廣告/推薦/搜尋場景的精準性,縮短技術疊代周期。

面向廣告、推薦、搜尋研發,XDL覆寫網際網路最核心的場景

随着深度學習的風靡,阿裡媽媽以算法先行的方式進行了探索,實驗效果非常好,但很快也發現,已有的開源架構很難滿足其廣告場景的規模性及生産疊代要求,自研面向工業應用的分布式深度學習架構随即被提上了日程。

據介紹,新架構XDL針對阿裡媽媽業務資料高維稀疏的場景特點進行了優化,性能遠超當時業界衆多的開源架構,自2016年下半年開始逐漸部署到阿裡媽媽的業務系統,至2017年初全面完成了生産化。以阿裡媽媽定向廣告為例,XDL架構助力了業務場景所有核心算法的深度學習創新,當年,以XDL為基礎的深度學習算法更新帶來的廣告收入提升超過百億。

不僅是廣告場景,網際網路其它的核心場景如推薦、搜尋等,也具有典型的高維稀疏資料特性,例如微網誌、抖音、今日頭條等都屬于該範疇内。是以,XDL在這些場景中也具有非常高的通用性,這為開源提供了基礎。不管是以廣告、推薦、搜尋為代表業務的企業級使用者,還是對此感興趣的個人使用者,都可以加入到開源計劃當中。

面向高維稀疏資料場景,阿裡媽媽宣布開源XDL深度學習架構

值得一提的是,在阿裡巴巴XDL開源之前,業界的深度學習開源架構基本是面向圖像、語音處理等場景資料而設計,這與整個人工智能領域的研究重點有關,圖像和語音是率先取得理論突破的場景,但在工業級網際網路場景中實作大突破還屬首次。

此外,據機器之心了解,XDL包含三個核心元件:全異步流水線并行的分布式運作時XDL-Flow;面向稀疏資料學習的進階模型伺服器AMS;本地計算引擎,插件化支援任意開源架構的Backend Engine。

面向高維稀疏資料場景,阿裡媽媽宣布開源XDL深度學習架構

開放與易用,阿裡巴巴引領業界高維稀疏資料的技術标準

據阿裡媽媽透露,XDL架構從設計之初,就具備了足夠的開放性和易用性,開源是水到渠成的一步。

面向高維稀疏資料場景,阿裡媽媽宣布開源XDL深度學習架構

整體而言,XDL具有多項核心能力。如XDL創造性地采用了橋接的架構設計理念,重點打造面向工業級應用的分布式規模能力,單機能夠處理的計算則引用現有開源架構。這種橋接的架構,使得XDL跟業界的開源社群是無縫對接的,例如使用者可以非常友善地在XDL架構上應用基于Tensorflow或者Pytorch編寫的最先進開源深度學習算法。此外,對于已經在使用其它開源架構的企業或者個人使用者,也可以在原有系統基礎上輕松進行擴充,享受XDL帶來的高維稀疏資料場景下極緻的分布式能力。

除了核心的XDL訓練架構外,阿裡媽媽透露将全面開源面向高維稀疏資料場景的系統化解決方案,計劃分批次對外釋出,包括面向線上實時服務的高性能深度學習預估引擎、面向全庫實時檢索的全新深度學習比對引擎;同時還内置阿裡媽媽自主研發的一系列創新算法,涉及CTR預估模型、CVR預估模型、比對召回模型、模型壓縮訓練算法等等。

阿裡媽媽“讓天下沒有難做的營銷”的使命在近年來又多了一層含義,Ad Tech 技術驅動廣告的色彩明顯。阿裡媽媽産品技術部資深總監蓋坤表示,阿裡媽媽希望通過技術開源來賦能大家,引領業界高維稀疏資料計算的技術标準,推動整個領域技術的整體前進,讓創新的算法、架構方案層出不窮。

原文釋出時間為:2018-11-28

本文作者:李亞洲

本文來自雲栖社群合作夥伴“

機器之心

”,了解相關資訊可以關注“

”。

繼續閱讀