天天看點

DeepMind智能體自學跑酷:略顯智障,結果尚好簡筆小人論文介紹強化學習算法

本文來自AI新媒體量子位(QbitAI)

“看起來就像國小生在玩地獄邊境。”

近日,谷歌DeepMind團隊創造了一個自學跑酷的智能體,并且解鎖了它在不同地形和障礙物下的跑酷姿勢。除了畫風喜感了點,訓練效果看起來還是蠻好的。

△ 1分37秒處情感驚豔

視訊中的簡筆小人似乎似乎在進行一場激烈的跑酷比賽,它的身型、周圍的地形以及障礙物都是變化的。小人需要自學奔跑、跳躍、蹲伏等姿勢,找到從A到B的最佳穿越方式。

DeepMind智能體自學跑酷:略顯智障,結果尚好簡筆小人論文介紹強化學習算法

研究人員賦予了智能體一組虛拟傳感器,傳感器告訴智能體有沒有走歪,并激勵它前進。智能體需要根據傳感器的訓示自己探索和修正錯誤,嘗試不同的通過方法。

這個智能體背後,是DeepMind團隊在探索怎樣将強化學習應用在教智能體适應陌生且複雜的環境。

這項研究成果也被同步發表到arXiv上,DeepMind将論文命名為《Emergence of Locomotion Behaviours in Rich Environments》,由Nicolas Heess, Dhruva TB, Srinivasan Sriram等12名DeepMind研究人員完成。

DeepMind智能體自學跑酷:略顯智障,結果尚好簡筆小人論文介紹強化學習算法

一般來說,強化學習(Reinforcement Learning)讓智能體在獎勵中直接學習複雜行為。但在通常情況下,強化學習訓練的運動非常脆弱,在陌生環境中很容易崩潰,不知下一步應如何移動。

就像嬰兒适應了家裡的樓梯後,再把他放在電動扶梯上,他就不知如何是好了。

一般的強化學習需要研究人員仔細地設計很多特定的獎勵機制。

但DeepMind研究人員僅僅給予智能體一個獎勵行為,那就是前進。

他們用單一的獎勵機制配合豐富的環境,讓智能體學習運動。運動行為對獎勵的設定非常敏感,但結果顯示,智能體在各種環境中都表現良好。

也就是說,DeepMind的智能體不依賴多種獎勵,而是通過豐富的環境,如地形與障礙學習複雜行為。

通過這種新奇的可擴充政策梯度增強學習變體,智能體在沒有明确環境獎勵引導的情況下,也可以跑步、跳躍、蹲伏和轉彎。

DeepMind智能體自學跑酷:略顯智障,結果尚好簡筆小人論文介紹強化學習算法

為了使智能體在這些富有挑戰的環境中有效學習,必須有一個可靠的可拓展強化學習算法。是以,DeepMind用了幾組方法組合完成了這項任務。

這項任務不僅需要基于強大的政策梯度算法,如信賴域政策優化(TRPO)和近似政策優化(PPO)置信區間的參數更新,來確定穩定性。

其次,還要像廣泛使用得A3C算法等相關方法一樣,需要在很多并行智能執行個體和環境上配置設定計算。

最後,附上論文位址:

https://arxiv.org/pdf/1707.02286.pdf

【完】

本文作者:安妮

原文釋出時間:2017-07-11

繼續閱讀