AI平台-第四範式AutoML綜述

。

這是一篇來自第四範式(4Paradigm)公司的關于AutoML的綜述文章。第四範式是目前國内關于AutoML研究較早較深入的公司之一。AutoML全稱是Automated Machine Learning，是2014年以來，機器學習和深度學習領域最炙手可熱的領域之一。本篇綜述文章系統地對AutoML領域給出了綜述，從出現原因、問題定義、問題構成、基本政策、進階政策、應用、及總結等方面進行了全面的介紹。下面是一些簡要的筆記。

AutoML出現原因

機器學習的應用需要大量的人工幹預，這些人工幹預表現在：特征提取、模型選擇、參數調節等機器學習的各個方面。AutoML視圖将這些與特征、模型、優化、評價有關的重要步驟進行自動化地學習，使得機器學習模型無需人工幹預即可被應用。

AutoML問題定義

作者從機器學習和自動化兩個角度給出了定義： - 從機器學習角度講，AutoML可以看作是一個在給定資料和任務上學習和泛化能力非常強大的系統。但是它強調必須非常容易使用。 - 從自動化角度講，AutoML則可以看作是設計一系列進階的控制系統去操作機器學習模型，使得模型可以自動化地學習到合适的參數和配置而無需人工幹預。

一個通用的AutoML定義如下：

AutoML的核心任務：

Better performance
No human assistance
Lower computation budgets

AutoML問題構成

AutoML的主要問題可以由三部分構成：特征工程、模型選擇、算法選擇。

特征工程

特征工程在機器學習中有着舉足輕重的作用。在AutoML中，自動特征工程的目的是自動地發掘并構造相關的特征，使得模型可以有最優的表現。除此之外，還包含一些特定的特征增強方法，例如特征選擇、特征降維、特征生成、以及特征編碼等。這些步驟目前來說都沒有達到自動化的階段。

上述這些步驟也伴随着一定的參數搜尋空間。第一種搜尋空間是方法自帶的，例如PCA自帶降維參數需要調整。第二種是特征生成時會将搜尋空間擴大。

模型選擇

模型選擇包括兩個步驟：選擇一個模型，設定它的參數。相應地，AutoML的目的就是自動選擇出一個最合适的模型，并且能夠設定好它的最優參數。

算法選擇

對于算法選擇，AutoML的目的是自動地選擇出一個優化算法，以便能夠達到效率和精度的平衡。常用的優化方法有SGD、L-BFGS、GD等。使用哪個優化算法、對應優化算法的配置，也需要一組搜尋空間。

從全局看

将以上三個關鍵步驟整合起來看，一個完整的AutoML過程可以分成這麼兩類：一類是将以上的三個步驟整合成一個完整的pipeline；另一類則是network architecture search，能夠自動地學習到最優的網絡結構。在學習的過程中，對以上三個問題都進行一些優化。

基本的優化政策

一旦搜尋空間确定，我們便可以實用優化器(optimizer)進行優化。這裡，AutoML主要回答三個問題： - 選擇的優化器可以作用在哪個搜尋空間上？ - 它需要什麼樣的回報？ - 為了取得一個好的效果，它需要怎樣的配置？

簡單的優化搜尋方式包括grid search和random search。其中grid search被廣泛使用。

從樣本中進行優化的方法主要包括啟發式搜尋、derivative-free優化、以及強化學習方法。梯度下降法是一種重要的優化政策。

評價政策

基本評價政策

在設計評價政策時，AutoML主要回答三個問題： - 這種政策能能夠快速進行評價嗎？ - 這種政策能夠提供準确的評價嗎？ - 這種政策需要怎樣的回報？

基本的評價政策包括： - 直接評價。直接在目标資料上進行評價。這是被使用最多的政策。 - 采樣。當資料樣本量非常大時，采樣一些樣本進行評價。 - Early stop。當遇到一些極端情況使得網絡表現效果不好時，可以考慮進行early stop。 - 參數重用。将之前學習過的參數重複利用在新任務上。這在兩種任務配置差不多時可用。 - 共轭評價。對于一些可量化的配置，可以用共轭評價法進行。

進階評價政策

進階評價政策主要包括兩種：meta-learning和transfer learning。

Meta-learning法。從先前的學習經驗中提煉出基本的參數和結構配置。
Transfer learning法。從先前的學習經驗中提煉出可以重用的一些知識。

應用

使用Auto-sklearn進行模型選擇。
使用強化學習進行neural architecture search。
使用ExploreKit進行自動特征建構。

展望

未來可能的研究方向：

提高AutoML的效率。
更明确的問題定義。
發展基本和進階的搜尋政策。
找到更适合的應用。

AI平台-第四範式AutoML綜述

AutoML出現原因

AutoML問題定義

AutoML問題構成

特征工程

模型選擇

算法選擇

從全局看

基本的優化政策

評價政策

基本評價政策

進階評價政策

應用

展望

繼續閱讀

開源低帶寬語音編解碼器

新聞 | Mapbox 牽手阿裡，飛豬旅行上線六大城市地圖功能

241 Different Ways to Add Parentheses（C代碼版）

【趨高機器視覺】機器視覺技術原了解析及解決方案

CSMA/CD1． CSMA/CD的概述2． CSMA 的工作原理3． CSMA/CD控制規程及特點4． CSMA/CD協定5． CSMA/CD的優點6．結束語

極大似然法(ML)與最大期望法(EM)

[HTML5]自定義屬性 data-* 和 jQuery.data 詳解

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告

C++ 第十五周報告1--《冒泡法排序》

2021年危險化學品經營機關安全管理人員考試題庫及危險化學品經營機關安全管理人員考試技巧

筆試面試題目：滑動視窗(二)

資料結構與算法（27）——排序（二）

無人機--飛控科普

Dijkstra--簡易版（最短路徑）

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

hdu7108哈希