加州大學伯克利分校研究人員推出無監督強化學習基準 (URLB)

強化學習 (RL) 是一種強大的人工智能範式，用于處理各種問題，包括自動駕駛汽車控制、數字助理和資源配置設定等。然而即使是當今最好的 RL 代理也很窄。目前大部分 RL 算法隻能解決他們所訓練的單一工作，沒有跨任務或跨域泛化能力。

當今 RL 系統的狹隘性造成了意想不到的後果，使當今的 RL 代理的資料效率極低。代理過度适應特定的外在激勵，限制了在 RL 中的泛化能力。

迄今為止，無監督預訓練已被證明是通用人工智能系統在語言和視覺方面最有前途的方法。RL 算法動态地影響它們的資料分布，不像視覺和語言模型那樣作用于靜态資料。表征學習在強化學習中至關重要。但是 RL 獨有的無監督困難在于代理如何通過自我監督的目的生成有趣且多樣化的資料。

無監督強化學習與監督強化學習非常相似。兩者都努力最大化獎勵并假設底層環境由馬爾可夫決策過程 (MDP) 或部分觀察的 MDP 定義。然而受監督的 RL 假設環境以外在獎勵的形式提供監督。相比之下無監督 RL 以自我監督任務的形式定義了内在激勵。

機器人學習實驗室 (RLL) 的一組研究人員一直緻力于使無監督強化學習 (RL) 成為開發可泛化 RL 代理的可行選擇。為此使用開源 PyTorch 代碼為 8 個領先或流行的基線建立并釋出了一個無監督的 RL 基準測試。

近年來已經提出了幾種無監督的 RL 算法。但由于評估、環境、優化等方面的差異，一直無法客觀比較。是以該團隊推出了URLB（無監督強化學習基準）工具，該工具可為無監督 RL 算法提供定義的評估過程、域、下遊任務和優化。

URLB 将訓練分為兩個階段：

在初始版本中，有 3 個域，每個域有 4 個任務，用于評估 12 個下遊任務。

大多數無監督 RL 算法可以分為三種類型：

以前使用幾種優化算法來實作這些算法。是以比較無監督 RL 算法已被證明是困難的。該團隊在他們的實作中标準化了優化技術，是以自我監督的目标是不同基線之間的唯一差別。

在基于 DeepMind 控制套件的域上，該團隊已經實作并釋出了八種主要算法的代碼，這些算法支援基于狀态和基于像素的觀察。

基于對現有方法的基準測試，還強調了許多未來有趣的研究方向。例如基于能力的探索在整體上不如基于資料和知識的探索，這是一個引人入勝的研究領域。

論文：

https://openreview.net/pdf?id=lwrPkQP_is

Github：

https://github.com/rll-research/url_benchmark

參考：

https://bair.berkeley.edu/blog/2021/12/15/unsupervised-rl/