DeepMind智能體自學跑酷：略顯智障，結果尚好簡筆小人論文介紹強化學習算法

2018-01-15 23:50:00

本文來自AI新媒體量子位（QbitAI）

“看起來就像國小生在玩地獄邊境。”

近日，谷歌DeepMind團隊創造了一個自學跑酷的智能體，并且解鎖了它在不同地形和障礙物下的跑酷姿勢。除了畫風喜感了點，訓練效果看起來還是蠻好的。

△ 1分37秒處情感驚豔

視訊中的簡筆小人似乎似乎在進行一場激烈的跑酷比賽，它的身型、周圍的地形以及障礙物都是變化的。小人需要自學奔跑、跳躍、蹲伏等姿勢，找到從A到B的最佳穿越方式。

研究人員賦予了智能體一組虛拟傳感器，傳感器告訴智能體有沒有走歪，并激勵它前進。智能體需要根據傳感器的訓示自己探索和修正錯誤，嘗試不同的通過方法。

這個智能體背後，是DeepMind團隊在探索怎樣将強化學習應用在教智能體适應陌生且複雜的環境。

這項研究成果也被同步發表到arXiv上，DeepMind将論文命名為《Emergence of Locomotion Behaviours in Rich Environments》，由Nicolas Heess, Dhruva TB, Srinivasan Sriram等12名DeepMind研究人員完成。

一般來說，強化學習（Reinforcement Learning）讓智能體在獎勵中直接學習複雜行為。但在通常情況下，強化學習訓練的運動非常脆弱，在陌生環境中很容易崩潰，不知下一步應如何移動。

就像嬰兒适應了家裡的樓梯後，再把他放在電動扶梯上，他就不知如何是好了。

一般的強化學習需要研究人員仔細地設計很多特定的獎勵機制。

但DeepMind研究人員僅僅給予智能體一個獎勵行為，那就是前進。

他們用單一的獎勵機制配合豐富的環境，讓智能體學習運動。運動行為對獎勵的設定非常敏感，但結果顯示，智能體在各種環境中都表現良好。

也就是說，DeepMind的智能體不依賴多種獎勵，而是通過豐富的環境，如地形與障礙學習複雜行為。

通過這種新奇的可擴充政策梯度增強學習變體，智能體在沒有明确環境獎勵引導的情況下，也可以跑步、跳躍、蹲伏和轉彎。

為了使智能體在這些富有挑戰的環境中有效學習，必須有一個可靠的可拓展強化學習算法。是以，DeepMind用了幾組方法組合完成了這項任務。

這項任務不僅需要基于強大的政策梯度算法，如信賴域政策優化（TRPO）和近似政策優化（PPO）置信區間的參數更新，來確定穩定性。

其次，還要像廣泛使用得A3C算法等相關方法一樣，需要在很多并行智能執行個體和環境上配置設定計算。

最後，附上論文位址：

https://arxiv.org/pdf/1707.02286.pdf

【完】

本文作者：安妮

原文釋出時間：2017-07-11

DeepMind智能體自學跑酷：略顯智障，結果尚好簡筆小人論文介紹強化學習算法

繼續閱讀

Codeforces 1417 D. Make Them Equal(思維+構造)

查找算法之二分查找查找算法之二分查找

查找算法學習之二分查找（Python版本）——BinarySearch

CQ V1.0分詞bates(基于雙數組tire樹)—應該是目前最快的中文分詞算法

Command Network(POJ 3164)---定根最小樹形圖模闆題題目描述輸入格式輸出格式輸入樣例輸出樣例分析源程式

開源低帶寬語音編解碼器

241 Different Ways to Add Parentheses（C代碼版）

【趨高機器視覺】機器視覺技術原了解析及解決方案

CSMA/CD1． CSMA/CD的概述2． CSMA 的工作原理3． CSMA/CD控制規程及特點4． CSMA/CD協定5． CSMA/CD的優點6．結束語

極大似然法(ML)與最大期望法(EM)

C++ 第十五周報告1--《冒泡法排序》

筆試面試題目：滑動視窗(二)

資料結構與算法（27）——排序（二）

Dijkstra--簡易版（最短路徑）

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

hdu7108哈希