值函數

強化學習筆記1. 強化學習是什麼2. Markov Decision Process (MDP)3. 政策疊代（policy iteration）和值疊代（value iteration）4. model-free prediction: MC & TD5 model-free control6 值函數近似（value function approximation）
強化學習 MDP 值函數馬爾科夫
04-25