本文來自AI新媒體量子位(QbitAI)
“看起來就像國小生在玩地獄邊境。”
近日,谷歌DeepMind團隊創造了一個自學跑酷的智能體,并且解鎖了它在不同地形和障礙物下的跑酷姿勢。除了畫風喜感了點,訓練效果看起來還是蠻好的。
△ 1分37秒處情感驚豔
視訊中的簡筆小人似乎似乎在進行一場激烈的跑酷比賽,它的身型、周圍的地形以及障礙物都是變化的。小人需要自學奔跑、跳躍、蹲伏等姿勢,找到從A到B的最佳穿越方式。
研究人員賦予了智能體一組虛拟傳感器,傳感器告訴智能體有沒有走歪,并激勵它前進。智能體需要根據傳感器的訓示自己探索和修正錯誤,嘗試不同的通過方法。
這個智能體背後,是DeepMind團隊在探索怎樣将強化學習應用在教智能體适應陌生且複雜的環境。
這項研究成果也被同步發表到arXiv上,DeepMind将論文命名為《Emergence of Locomotion Behaviours in Rich Environments》,由Nicolas Heess, Dhruva TB, Srinivasan Sriram等12名DeepMind研究人員完成。
一般來說,強化學習(Reinforcement Learning)讓智能體在獎勵中直接學習複雜行為。但在通常情況下,強化學習訓練的運動非常脆弱,在陌生環境中很容易崩潰,不知下一步應如何移動。
就像嬰兒适應了家裡的樓梯後,再把他放在電動扶梯上,他就不知如何是好了。
一般的強化學習需要研究人員仔細地設計很多特定的獎勵機制。
但DeepMind研究人員僅僅給予智能體一個獎勵行為,那就是前進。
他們用單一的獎勵機制配合豐富的環境,讓智能體學習運動。運動行為對獎勵的設定非常敏感,但結果顯示,智能體在各種環境中都表現良好。
也就是說,DeepMind的智能體不依賴多種獎勵,而是通過豐富的環境,如地形與障礙學習複雜行為。
通過這種新奇的可擴充政策梯度增強學習變體,智能體在沒有明确環境獎勵引導的情況下,也可以跑步、跳躍、蹲伏和轉彎。
為了使智能體在這些富有挑戰的環境中有效學習,必須有一個可靠的可拓展強化學習算法。是以,DeepMind用了幾組方法組合完成了這項任務。
這項任務不僅需要基于強大的政策梯度算法,如信賴域政策優化(TRPO)和近似政策優化(PPO)置信區間的參數更新,來確定穩定性。
其次,還要像廣泛使用得A3C算法等相關方法一樣,需要在很多并行智能執行個體和環境上配置設定計算。
最後,附上論文位址:
https://arxiv.org/pdf/1707.02286.pdf
【完】
本文作者:安妮
原文釋出時間:2017-07-11