天天看點

雲腦科技徐昊:AutoML 工程實踐與大規模行業應用 | AI研習社104期大講堂總結

雷鋒網(公衆号:雷鋒網)AI 科技評論按: AutoML 是今年的機器學習的熱點,該技術潛力很大,在工程實踐能夠産生巨大的價值。現階段,業界主要在探讨 AutoML 的難點與方向階段,目前還沒有一家推出系統性的方案。在工程實踐上,AutoML 還沒有成為機器學習流程自動化、智能化的主要推動力。在實際應用中,針對大資料大模型的 AutoML 優化在 research 與 engineering 兩方面都很缺乏。在本次公開課中,嘉賓分享了關于 AutoML 的算法和工程落地等實際問題。

分享嘉賓:

徐昊,雲腦科技核心算法工程師,機器學習與高性能計算專家。在機器學習,自然語言處理,高性能分布式計算、圖計算、随機優化等領域有着十餘年研發經驗。辛辛那提大學計算機工程博士,發表 IEEE/ACM 頂級論文 20 餘篇,曾獲第八屆國際低能耗電子器件會議唯一最佳論文獎。曾任 ANSYS 軟體首席工程師,主持了 10 億級節點的分布式機率圖計算系統的開發。

公開課回放位址:

http://www.mooc.ai/course/607/learn?lessonid=2939#lesson/2939

分享主題:AutoML 工程實踐與大規模行業應用

分享提綱:

AutoML 業界動态

AutoML 算法前沿進展

AutoML 大規模工程應用落地問題

雲腦科技高效 AutoML 系統

雲腦 AutoML 在推薦,、遊戲,、金融等領域的應用

雷鋒網 AI 科技評論将其分享内容整理如下:

AutoML 在 2018 年是一個比較火的話題,salesforce 和微軟都開源了 AutoML 的庫,有很多開源軟體包,如 AUTO KERAS,Auto-Sklearn 和 AutoWeka。

雲腦科技徐昊:AutoML 工程實踐與大規模行業應用 | AI研習社104期大講堂總結

在算法上,今年在科研上比較受歡迎的是 NAS 算法,主要涉及神經網絡結構方面的搜尋。在超參的搜尋方面,研究比較多的是 Model Based Sequential Optimization,基本思路是在超參空間裡面先采樣後模組化,選擇下一個提升機率比較高的超參點,比較流行的模型是貝葉斯和 TPE 模型等。Google 的 paper《Hyperband》上一種簡單的 Bandit 方法使用的較多,基本思路是先在超參空間撒點采樣,然後對每個點進行訓練,訓練結果更好的點可以獲得更多的資源。還有 Population based Algorithm 算法,這些都是組合優化問題比較經典的解法。

雲腦科技徐昊:AutoML 工程實踐與大規模行業應用 | AI研習社104期大講堂總結

在工程應用的落地方面,AutoML 還處于實驗階段,模型的優化和調試效率有一定的問題,但是工程潛力巨大。它的缺點是:計算量巨大,不能滿足項目快速疊代的需求;目前僅限于調參問題;在搜尋和優化的過程中像一個黑盒子,人機互動較少。是以,AutoML 在大項目中應用落地還存在一定的問題。

雲腦科技徐昊:AutoML 工程實踐與大規模行業應用 | AI研習社104期大講堂總結

在工程實踐中落地要考慮哪些因素呢?首先是精确度、工程疊代速度、Serving 壓力,然後如果是深度學習,還要考慮深度學習優化加速,最後,線上模型的動态效果也需要考慮,因為線上模型的表現和線下的可能不一樣。那麼,對應的優化環節是下圖左邊的樣本效率、特征效率、模型選擇、優化效率和線上政策效率。

雲腦科技徐昊:AutoML 工程實踐與大規模行業應用 | AI研習社104期大講堂總結

雲腦在這些優化環節是如何做的?

樣本效率

樣本效率是機器學習最核心的問題之一,機器學習本質上是一個采樣加拟合的過程,但是這個過程在很多系統中并不是一次性完成的。很多情況下,樣本的處理都很簡單,大量樣本沒有用或者效率較低。樣本的選擇對精度的影響較大,其數量對耗時的影響是線性的。

我們把資訊量大的樣本留下來,資訊量小的去掉。如何衡量樣本資訊量?可以從無監督角度和業務角度考察樣本的資訊量。

雲腦科技徐昊:AutoML 工程實踐與大規模行業應用 | AI研習社104期大講堂總結

下面來看一個例子。下圖是遊戲點選率的線上資料。這是一個重度玩家在 11 天内樓蘭遊戲時對不同遊戲的點選和曝光數。如果我們需要分析使用者的喜好,隻需要輸入幾百個甚至幾十個樣本點,而不需要輸入全部 3000 個樣本點,這就是樣本的靜态效率可以提升的空間。

雲腦科技徐昊:AutoML 工程實踐與大規模行業應用 | AI研習社104期大講堂總結

樣本難度也是影響樣本效率的重要因素,提高模型精度的關鍵在于獲得更多的複雜樣本。其次,需要去掉噪聲樣本。那麼如何分析樣本的難度?一般使用模型預測值和真實标簽 cross entropy。保持原有資料的分布對樣本訓練過程來說非常重要。

特征效率

特征(尤其是稀疏特征)對訓練資料的效率影響很大。在項目工期緊張的時候,把所有的特征扔進模型學習是不實際的,是以我們進行定量分析。次元大的特征對訓練的影響非常大。稀疏特征也需要重點分析。對過于稀疏的特征值截斷處理也可以提高特征效率。我們現在比較重視變長特征的處理。變長特征通常是在嵌入以後取平均值或求和,變長特征長的樣本對 batch 的影響較大。

雲腦科技徐昊:AutoML 工程實踐與大規模行業應用 | AI研習社104期大講堂總結

AutoML 自動優化效率

AutoML 是在 5 次元超大空間聯合分布裡面尋找最優點:資料次元、特征次元、模型次元、優化次元和線上政策次元。傳統方法裡面,人負責資料采樣、特征工程和調參,隻有深度學習模型是自動學習的。而前沿的算法:Model based sequential optimization 基本上是模組化加采樣的方法,它假設整個超參空間是連續的;Bandit based 是一種純采樣的算法,其假設是優化空間優化過程中的精度的連續的,其缺點在于它是純采樣,沒有模型。而實際項目中由于各種原因,全局最優解是個非常複雜的問題。

雲腦科技徐昊:AutoML 工程實踐與大規模行業應用 | AI研習社104期大講堂總結

在實際工程中,還需要考慮機器學習全流程優化的問題。它包括資料清洗、特征工程和模型調試中的工程疊代效率。我們還需要考慮線上 serving 效率、線上政策優化和深度學習優化加速問題。

雲腦科技徐昊:AutoML 工程實踐與大規模行業應用 | AI研習社104期大講堂總結

雲腦的 AutoML 系統全貌如下圖所示。

雲腦科技徐昊:AutoML 工程實踐與大規模行業應用 | AI研習社104期大講堂總結

雲腦 AutoML 在多個領域都有應用:

雲腦科技徐昊:AutoML 工程實踐與大規模行業應用 | AI研習社104期大講堂總結

雷鋒網

雷鋒網版權文章,未經授權禁止轉載。詳情見轉載須知。

繼續閱讀