20) ? false:true">
登入
Q
個人中心
個人設定
退出
為你推薦
近期熱門
最新消息
體育
科技
娛樂
遊戲
育兒
曆史
時尚
健康
數位
旅遊
美食
汽車
文化
sports
占蔔
情感
登入
郵箱
密碼
記住我
忘記密碼?
登入
沒有賬号?
新增賬號
注冊
郵箱
驗證碼
擷取驗證碼
密碼
登入
為你推薦
近期熱門
最新消息
熱門分類
體育
科技
娛樂
遊戲
育兒
曆史
時尚
健康
數位
旅遊
美食
汽車
文化
sports
占蔔
情感
值函數
強化學習筆記1. 強化學習是什麼2. Markov Decision Process (MDP)3. 政策疊代(policy iteration)和值疊代(value iteration)4. model-free prediction: MC & TD5 model-free control6 值函數近似(value function approximation)
強化學習
MDP
值函數
馬爾科夫
04-25
100) ? false:true" x-data="topBtn" @click="scrolltoTop" x-cloak>