1 前言
如果大家已經對DQN有所了解,那麼大家就會知道,DeepMind測試的40多款遊戲中,有那麼幾款遊戲無論怎麼訓練,結果都是0的遊戲,也就是DQN完全無效的遊戲,有什麼遊戲呢?
![](https://img.laitimes.com/img/9ZDMuAjOiMmIsIjOiQnIsISM2QTNyczM1EjMxUDM2EDMy8CX0Vmbu4GZzNmLn9Gbi1yZtl2Lc9CX6MHc0RHaiojIsJye.jpg)
比如上圖這款遊戲,叫做Montezuma’s Revenge。這種遊戲類似超級瑪麗,難在哪裡呢?需要進階的政策。比如圖中要拿到鑰匙,然後去開門。這對我們而言是通過先驗知識得到的。但是很難想象計算機如何僅僅通過圖像感覺這些内容。感覺不到,那麼這種遊戲也就無從解決。
那麼這篇文章:
Hierarchical Deep Reinforcement Learning: Integrating Temporal Abstraction and Intrinsic Motivation
時間:2016年4月20号
來源: arXiv.org
嘗試解決這種問題。
2 文章思路
它的思路很簡單,就是弄一個兩個層級的神經網絡,頂層用于決策,确定下一步的目标,底層用于具體行為。
不得不說,這個想法顯而易見(本人也想過啦)但是,問題的關鍵是
如何确定内在的目标???
作者在paper中說了這麼一段話:
“We assume having access to an object detector that provides plausible object candidates.”
說白了就是人工給定目标。然後再來訓練。(本質上就是嵌套兩個DQN)
那就沒什麼意思了。
這樣從直覺感覺可以訓練出來。
但是意義就比較小了。
小結
這篇文章比較誇大的提出層次DRL來解決稀疏回報的問題,但是實際上并不算真正的解決,中間的目标給定太過人工,不具備通用性。也不太可能像作者說的專門為這些遊戲開發一個遊戲目标物體檢測算法。
但是,在否則這篇文章價值的同時,它也是有一定意義的。比如對于自動駕駛汽車,之前Nvidia完全的端到端訓練實作自動駕駛,但是如果中間加入一個物體檢測作為頂層決策環節,或許可以大大提高控制水準。
而對于image caption這種問題,也是同樣的道理。先物體檢測,再進入RNN輸出文字描述。
不過,個人卻不喜歡這種做法。雖然會work,但不智能。