機器學習等人工智能領域的前沿技術介紹、展望、應用
自動化機器學習(AutoML)
AutoML出現原因
機器學習的應用需要大量的人工幹預,這些人工幹預表現在:特征提取、模型選擇、參數調節等機器學習的各個方面。AutoML 試圖将這些與特征、模型、優化、評價有關的重要步驟進行自動化地學習,使得機器學習模型無需人工幹預即可被應用。
AutoML問題定義
作者從機器學習和自動化兩個角度給出了定義:
- 從機器學習角度講,AutoML 可以看作是一個在給定資料和任務上學習和泛化能力非常強大的系統。但是它強調必須非常容易使用;
- 從自動化角度講,AutoML 則可以看作是設計一系列進階的控制系統去操作機器學習模型,使得模型可以自動化地學習到合适的參數和配置而無需人工幹預。
AutoML的核心任務
- 更好的表現
- 無人為幫助
- 更低的計算代價
ML的問題構成
- 特征工程
- 在 AutoML 中,自動特征工程的目的是自動地發掘并構造相關的特征,使得模型可以有最優的表現。除此之外,還包含一些特定的特征增強方法,例如特征選擇、特征降維、特征生成、以及特征編碼等。這些步驟目前來說都沒有達到自動化的階段。
- 模型選擇
- 模型選擇包括兩個步驟:選擇一個模型和設定它的參數。相應地,AutoML的目的就是自動選擇出一個最合适的模型,并且能夠設定好它的最優參數。
- 算法選擇
- 對于算法選擇,AutoML 的目的是自動地選擇出一個優化算法,以便能夠達到效率和精度的平衡。常用的優化方法有 SGD、L-BFGS、GD 等。使用哪個優化算法、對應優化算法的配置,也需要一組搜尋空間。
展望(未來可研究方向)
- 提高AutoML的效率;
- 更明确的問題定義;
- 發展基本和進階的搜尋政策;
我國在人工智能領域的優勢和短闆
優勢:
- 無可比拟的優勢:人口和資料
- 憑借海量資料,中國企業已在語音識别、語言翻譯、精準推送廣告、無人車駕駛等領域取得領先地位。科技巨頭百度、阿裡巴巴、騰訊對中國公民買了什麼、去哪裡、和誰聊天都了如指掌。
- 資金來源:中國人工智能生态系統正在生成
- 根據騰訊研究院8月釋出的公開報告,目前在AI領域,美國領先,中國次之。不過,中國在該領域的獲投率(企業獲得投資的比例)超過美國,呈後來居上之勢。
- 論文數量超過歐盟總和,但是品質仍落後美國和歐盟
- Elsevier’sSciVal和Scopus資料顯示,去年中國人工智能領域的發表論文數量增加了近20%,而歐盟和美國的論文發表數量降低。2016年中國有4724篇人工智能論文發表,而歐盟國家的發表總和為3932篇。然而,基礎研究的品質仍然堪憂。盡管中國在量上取勝,但在被引用率top5的論文數量方面,中國仍落後于歐盟。但同時也超過了美國。
短闆:
- 晶片-GPU
- 此前高盛曾釋出關于中國人工智能産業發展的調研報告,報告認為,在AI發展中,中國隻差一個環節:GPU。近年來,負責圖像處理的GPU已經成為主流。然而GPU行業擁有極高的行業壁壘,全球範圍内由三大巨頭英特爾、AMD和Nvidia占據主導。2015年,美國政府宣布禁止英特爾和其他晶片巨頭向中國出售用于科研的高端處理器,對于一直以來依賴國外晶片的中國而言是個打擊。不過,在研究領域,中國自主研發的神威·太湖之光計算機已經成為全球第一的超級計算機。高盛認為,雖然中國超級計算機的商業化還未開始,但是随着時間的推移,中國對國外晶片的依賴會慢慢降低。