天天看點

中國人工智能學會通訊——建構強健的人工智能:原因及方式 3. 優化對風險敏感的目标

中國人工智能學會通訊——建構強健的人工智能:原因及方式 3. 優化對風險敏感的目标

現在,讓我們考慮一下,如何利用馬爾科夫決策過程(Markov decision process)來對風險敏感的目标進行優化。用這種方法來決策流程的最大問題是,必須先觀察這世界找到政策設定回饋,要設定最終的目标、回報。

想像一下标準的馬爾科夫決策問題過程,我們通過代理(agent)來觀察這個世界的狀态,這個代理會根據一些政策來采取行動,并收到回饋(reward)。比如,下圍棋時一直到遊戲結束才能得到reward;但是在駕駛汽車時,每做一次正确決定就會得到一次reward,或者至少免受懲罰。

中國人工智能學會通訊——建構強健的人工智能:原因及方式 3. 優化對風險敏感的目标

另外,我們還需要一個總回饋參數。我們來看一下,如果政策是固定的,要執行它,你可能要調整其他的一些參數,可以想像我們所收到的回饋參數會有這樣的機率分布,可以看到,它有一個下行的風險。我們要優化這個目标,讓它盡可能避免下行的風險。我們現在使用的是CVaR(Conditional Value at Risk),如上圖所示。

中國人工智能學會通訊——建構強健的人工智能:原因及方式 3. 優化對風險敏感的目标

這裡可以得出一個結論:優化CVaR,對模型的錯誤有更好的魯棒性。

中國人工智能學會通訊——建構強健的人工智能:原因及方式 3. 優化對風險敏感的目标

其實還有很多的例子,我就不談了,因為時間的關系我們看下一部分。

繼續閱讀