天天看點

當AI學會回憶:Deepmind提出長期信度配置設定新算法,登上Nature子刊

在進行目标導向的決策時,人類經常通過回憶過去的經驗進行決策。這種回憶不僅是講故事,還改變了我們未來的行動,并賦予我們跨時間地将行動和後果聯系起來的重要計算能力。

對于AI,這種能力有助于解決長期信度配置設定問題(long-term credit assignment):即如何評估行為在長期行為序列中的效用。但人工智能中現有的信度配置設定方法無法解決行動與結果之間存在長時間延遲的任務。

DeepMind最近發表在Nature Communications上的論文為解決這個問題提出了一種新的算法——TVT(Temporal Value Transport)。該算法也基于情景記憶檢索,使AI智能體能夠執行長期的信度配置設定。

當AI學會回憶:Deepmind提出長期信度配置設定新算法,登上Nature子刊
DeepMind的研究人員介紹了一個範式,其中智能體使用特定記憶的回憶來信任過去的行為,允許它們解決現有算法難以解決的問題。這一範式拓寬了人工智能研究的範圍,提供了一種對行為的機械性解釋,可能會激發神經科學、心理學和行為經濟學的模型。
當AI學會回憶:Deepmind提出長期信度配置設定新算法,登上Nature子刊

在深度強化學習基礎上引入長期信度配置設定的原則

人類如何表達偏好,并做出決定來確定未來的利益?這是一個長期存在的問題,最早可以追溯到效用理論的起源。在包括經濟學和心理學在内的多個領域中,關于如何采用适當形式來解釋未來長期決策中的結果評估,仍然是一個未解決的問題。

在人工智能研究中,長期評估單個動作的效用的問題被稱為“信度配置設定問題”。這類評估可以對過去的行動或計劃的未來行動進行評分。利用深度學習和強化學習(RL)相結合,可以産生一類體系結構和算法,用于評估這類問題。

顯而易見,人類和動物證明了最新的(無模型)深度強化學習尚無法模拟某些行為。尤其是,在沒有即時獎勵或直接回報的情況下做出許多行為。比如對于潛伏學習、前瞻記憶和跨時選擇等行為,目前還沒有有效的标準模型。另一方面,很多人類的學習和決策都是在沒有任務獎勵的情況下做出的,或者是在距離決策點的未來很長時間,才會獲得獎勵的情況下做出的。

有人認為,隻有當出現通過心理時間旅行和計劃進行長期信度配置設定的新政策時,原始的人的認知能力才真正成為現代人,進而導緻突然的文化轉變和社會複雜性的巨大變化。LTCA問題(long-term credit assignment)的算法進展可能會有助于可通過計算解決的決策問題。

本文執行個體建立在深度強化學習基礎上,引入了長期信度配置設定的原則。首先,智能體必須編碼并存儲感覺和事件記憶;第二,智能體必須通過識别和通路過去事件的記憶,來預測未來的回報;第三,智能體必須根據其對未來獎勵的貢獻,來重新評估這些過去的事件。

基于這些原理,時間價值傳輸(TVT)算法使用神經網絡注意力記憶機制,将遙遠的過去的行為歸功于以後的獎勵。該算法會自動将時間線上不連續的事件拼接在一起,這些事件由任務相關性及其互相關聯程度來辨別,進而讓智能體可以将某一行為與其後果聯系起來。該算法并非沒有啟發式元素,但我們證明了這種算法在需要LTCA的一系列任務中的有效性,而這些任務目前給深度強化學習帶來了很大的困難。

實驗和結果:TVT學習算法解決兩類基本任務

為了研究長時間延遲和幹預活動下的決策,我們将任務結構形式化為兩種基本類型。每個類型由三個階段P1-P3組成(圖1a)。

當AI學會回憶:Deepmind提出長期信度配置設定新算法,登上Nature子刊

圖1:任務設定和Reconstructive Memory Agent

在第一種任務類型(資訊擷取任務)中,在P1,agent必須在沒有即時獎勵的情況下探索一個環境來擷取資訊;在P2,agent長時間從事一項不相關的幹擾任務,并獲得了許多附帶獎勵;在P3,agent必須利用P1中擷取的資訊擷取遠端獎勵。

在第二種任務類型(因果任務)中,agent必須采取行動觸發P1中的某個事件,該事件隻有長期因果後果。P2同樣是一個分散注意力的任務,但在P3中,agent必須利用其在P1中的活動所引起的環境變化來取得成功。

由于我們提出的解決方案的一個關鍵部分涉及到記憶編碼和檢索,是以我們認為P1是由随後的記憶編碼的動作組成,P2是幹擾因素,P3是利用(圖1a)。

當AI學會回憶:Deepmind提出長期信度配置設定新算法,登上Nature子刊

圖1a:3階段的任務結構。在P1,沒有獎勵,但是agent必須尋找資訊或者觸發事件。在P2,agent執行一個提供獎勵的幹擾任務。在P3, agent可以根據其在P1中的行為獲得遠端獎勵。

雖然我們有時會報告P2中的性能,但為了確定agent在執行幹擾任務時的性能是相同的,我們将主要關注P3中agent獲得的性能。挑戰在于在P1中産生有助于P3表現的行為,進而實作LTCA。雖然這種任務結構是設計的,但它使我們能夠系統地控制延遲時間和幹擾獎勵的差異。

在這些假設下,我們可以通過在政策梯度估計中定義一個引起P1行為适應的信噪比(SNR)來了解為什麼幹擾階段會對LTCA造成損害。

重建記憶智能體(Reconstructive Memory Agent, RMA)

我們使用一個AI智能體來解決這個任務,将其命名為RMA(圖1c),它是從以前的模型簡化而來的。關鍵的是,這個模型結合了一個重建過程來壓縮有用的感官資訊和記憶存儲,這些存儲可以通過基于内容的尋址查詢來通知agent的決策。RMA本身不具有支援LTCA的專門功能,但是為TVT算法的操作提供了基礎。

現在我們轉到需要LTCA的第1類的資訊擷取任務,即Active Visual Match。這裡,在P1階段,agent必須主動地在一個兩個房間的迷宮中随機找到一個彩色正方形,這樣它才能決定P3中的比對項(圖2a)。

如果一個agent在P1中偶然發現了視覺線索,那麼它可以在P3中使用這個資訊,但這隻能是随機成功的。在被動的視覺比對中,agent在P2階段執行一個30秒的收集蘋果幹擾任務。

當AI學會回憶:Deepmind提出長期信度配置設定新算法,登上Nature子刊

圖2:Temporal Value Transport 和第一類資訊擷取任務。

Temporal Value Transport

TVT是一種學習算法,它增強了基于記憶的智能體解決LTCA問題的能力。我們可以将注意力記憶通路與RL結合起來,通過自動發現如何忽略它來有效地将問題轉換成一個沒有延遲的問題,進而對抗偏差。

RL裡的一個标準技術是通過bootstrapping來估計政策梯度計算的收益:使用學習的值函數,它是确定的,是以方差小,但有偏差,以減少回報計算中的方差。

在圖2c中,我們強調了TVT背後的基本原理。在之前的Passive Visual Match 任務中,我們看到RMA讀取機制學會了從P1中檢索記憶,以生成P3中的值函數預測和政策。

當應用于具有較大幹擾獎勵的Active Visual Match 任務時,具有TVT的RMA模型在P1階段學習了正确的行為,甚至比沒有幹擾獎勵的RMA更快。(圖2 b, d)。學習行為的差異是戲劇性的:TVT可靠地找到了P1中的彩色方塊,而RMA表現随機(圖3)。

當AI學會回憶:Deepmind提出長期信度配置設定新算法,登上Nature子刊

圖3:主動視覺比對任務中agent的分析

TVT還可以解決第二類因果關系任務,其中,agent不需要為P3擷取P1中的資訊,而是必須引起将影響P3中環境狀态的事件。這裡我們研究的是Key-to-Door(KtD)任務,在這個任務中,一個agent必須學會在P1中撿起一把鑰匙,這樣它才能打開P3中的一扇門,進而獲得獎勵(圖4a)。

當AI學會回憶:Deepmind提出長期信度配置設定新算法,登上Nature子刊

圖4:第二類因果任務。

在确定TVT能夠解決簡單問題之後,我們現在将在兩個更複雜的場景中示範TVT的能力。第一個是KtD和Active Visual Match 任務的結合,示範了跨多個階段的TVT——撿鑰匙開門到比對任務(KtDtM);在這種情況下,agent必須表現出兩個非連續行為才能獲得遠端獎賞。

這個任務有P1–P5五個階段(Fig. 5a).

當AI學會回憶:Deepmind提出長期信度配置設定新算法,登上Nature子刊

圖5:Transport across multiple phases.

最後,我們來看一個更豐富的任務——潛在資訊擷取(圖6a)。

TVT agent單獨完成了任務(圖6b,黑色曲線),通常在P1中接觸所有三個對象(圖6d),而RMA平均隻接觸一個對象(圖6b,其他顔色)。在P1中,對象被放置在6個可能位置的網格中(與P3位置無關)。隻有TVT學習到一種探索性的掃描行為,可以有效地覆寫對象所在的位置(圖6c);RMA移動到同一角落,是以意外地觸及了一個物體。

當AI學會回憶:Deepmind提出長期信度配置設定新算法,登上Nature子刊

圖6:更複雜的資訊擷取任務

該研究的代碼已開源:

https://github.com/deepmind/deepmind-research/tree/master/tvt

文章來源:新智元

繼續閱讀