李宏毅強化學習筆記【4.Sparse Reward】

2023-04-27 02:24:28

沒有reward，訓練很難。

因為一開始機器什麼都不知道，就靠随機。如果随機一個機率特别小的才有reward，reward非常稀疏，就非常難學習，因為做什麼動作都一樣糟糕。

1.reward shaping

環境有一個固定的reward。我們還可以設計一些reward，這些不是真正的reward，但是可以引導機器去做一些你想要他做的事情。

增加好奇心：

鼓勵冒險，真實的s與network1（另外訓練出來的）預測的s越不同，reward越大。這樣可以探索更多的未知。

問題：有些state很難預測，但是并不重要。

李宏毅強化學習筆記【4.Sparse Reward】

是以再學一個特征提取，把一些沒有意義的東西過濾掉。

學習network2，讓預測的a和真實采取的動作a越像越好。這樣排除無關特征的影響。

李宏毅強化學習筆記【4.Sparse Reward】

2. curriculum learning

為機器的學習做規劃，從簡單到難。幫機器規劃一下課程。

學習目标的state，找附近的state學習，去掉過難或者過簡單的state。找到難度适中的state，再在其附近找相似的state。

3. Hierarchical Reinforcement Learning

有很多agent，有的負責定目标，把它配置設定給其他的agent完成。

如果低層agent做不到，上層agent就會收到懲罰。

如果agent做到了一個錯誤的目标，把上層的目标給改成這個錯誤的。（這樣動作不會被浪費。）

李宏毅強化學習筆記【4.Sparse Reward】

繼續閱讀