Population-coding and Dynamic-neurons improved Spiking Actor Network for Reinforcement Learning

鄭重聲明：原文參見标題，如有侵權，請聯系作者，将會撤銷釋出！

Accepted by Journal of Neural Networks (2021)

Abstract

　　深度神經網絡(DNN)作為強大的函數近似器，深度強化學習(DRL)在機器人控制任務中得到了出色的展示。與具有普通人工神經元的DNN相比，生物學合理的脈沖神經網絡(SNN)包含多樣化的脈沖神經元群體，使其在具有空間和時間資訊的狀态表征方面自然而然地強大。基于混合學習架構，其中脈沖actor網絡從狀态推斷動作，深度critic網絡評估actor，我們提出了群體編碼和動态神經元改進的脈沖actor網絡(PDSAN)，用于兩個不同尺度的有效狀态表征：輸入編碼和神經元編碼。對于輸入編碼，我們應用具有動态接受域的群體編碼來直接編碼每個輸入狀态分量。對于神經元編碼，我們提出了不同類型的動态神經元(包含一階和二階神經元動态)來描述更複雜的神經元動态。最後，使用雙延遲深度确定性政策梯度算法結合深度critic網絡對PDSAN進行訓練(TD3-PDSAN)。廣泛的實驗結果表明，我們的TD3-PDSAN模型在四個OpenAI gym基準任務上取得了比最先進模型更好的性能。使用SNN改進RL以實作滿足生物學合理性的有效計算是一個重要的嘗試。

1. Introduction

　　強化學習(RL)在機器學習算法的世界中占有一席之地[1]，其中模型以試錯的方式與環境互動，并通過最大化累積獎勵來學習最優政策，進而達到優秀決策性能[2]。然而，對于傳統的強化學習，在複雜的高維狀态空間中有效地提取和表示特征是一個具有挑戰性的問題。深度強化學習(DRL)通過使用深度神經網絡(DNN)直接從高維原始輸入中提取特征，在一定程度上解決了這個問題。是以，DRL可用于解決複雜任務[3]中智能體的決策問題，例如推薦系統[4, 5]、遊戲[6, 7]和機器人控制[8, 9, 10]。

　　脈沖神經網絡(SNN)的靈感來自于生物大腦，它自然是用于複雜環境互動強化學習的基本智能體。與具有普通人工神經元的DNN相比，SNN固有地傳輸和計算具有随時間分布的動态脈沖的資訊[11]。SNN在時間和空間次元上基于脈沖的資訊編碼将有助于增強RL中更強大的狀态表征[12, 13]。

　　SNN的輸入編碼尺度上有兩大類資訊編碼(發放率和時間類型)。發放率編碼使用時間視窗中脈沖序列的發放率對資訊進行編碼，其中輸入實數被轉換為頻率與輸入值成正比的脈沖序列[14, 15]，時間編碼用單獨脈沖的相對時間來編碼資訊，其中輸入值通常轉換為具有精确時間的脈沖序列[16, 17, 18, 19]。除此之外，群體編碼在整合這兩種類型方面是特殊的。例如，群體中的每個神經元都可以生成具有精确時間的脈沖序列，并且還包含與其他神經元的關系(例如，高斯感受野)，以便在全局範圍内進行更好的資訊編碼[20, 21]。

　　對于SNN的神經元編碼尺度，有多種類型的脈沖神經元[22, 23]。IF神經元是最簡單的神經元類型。當膜電位超過發放門檻值時IF神經元發放，電位會被重置為預定的靜息膜電位[24]。另一個LIF神經元通過引入洩漏因子，允許膜電位随着時間的推移而不斷縮小[22]。它們通常用作标準的一階神經元。此外，提出了具有二階膜電位公式的Izhikevich神經元，它可以更好地表示複雜的神經元動态，但需要一些預先定義的超參數[25]。

　　在本文中，基于混合學習架構，其中脈沖actor網絡從狀态推斷動作，深度critic網絡評估actor，我們提出了一種群體編碼和動态神經元改進的脈沖actor網絡(PDSAN)用于兩個不同尺度的有效狀态表征：網絡外的輸入編碼和網絡内的神經元編碼。對于輸入編碼，我們将群體編碼應用于輸入狀态，其中使用可學習的感受野組對每個輸入元件進行編碼。編碼後的模拟資訊直接輸入網絡，提高計算效率和狀态表征能力。對于神經元編碼，具有一階或更高階膜電位動态的不同類型的動态神經元(DNs)被提出，并結合群體編碼以獲得更強的狀态表征能力。與預先定義的Izhikevich神經元不同，動态神經元從OpenAI gym[26]任務之一(例如，Antv3)中自學，然後擴充到其他類似的任務(例如，HalfCheetah-v3、Walker2d-v3和Hopper-v3)假設相似的任務很可能共享相似的參數。最後，所提出的PDSAN與雙延遲深度确定性政策梯度算法(TD3-PDSAN)[27]相結合，以學習标準OpenAI gym[26]中四個連續控制任務的有效解決方案。與目前最先進的模型相比，我們提出的TD3PDSAN模型實作了更好的性能(獲得的獎勵)。

　　本文的主要貢獻可以歸納為以下幾個部分：

我們結合了空間編碼和群體編碼，其中輸入向量(狀态)中的每個模拟數字都被編碼為一組具有可學習高斯感受野的模拟數字。我們還測試了空間編碼和時間編碼的差異(例如，進一步将模拟數字編碼為脈沖序列)并得出結論，空間編碼相對于其他時間編碼更有效。
我們建構了一個具有動态神經元的多層脈沖actor網絡，包含用于複雜空間和時間資訊表征的一階和高階神經元動态。
憑借在輸入和神經元尺度上的高效狀态表征，我們提出的TD3-PDSAN模型在OpenAI gym基準測試任務上實作了新的最先進性能，包括Ant-v3、HalfCheetah-v3、Walker2d-v3和Hopper-v3。

2. Related Work

　　最近，文獻圍繞在各種RL算法中引入SNN的主題發展起來[28, 29, 30]。一些算法[31]已将連續時序差分(TD)學習[32]擴充到連續時間運作的actor-critic網絡中脈沖神經元的情況。帶有脈沖神經元的強化學習是通過兩種不同的突觸可塑性實作的：随機性和确定性[33]。這些方法通常基于獎勵調節的局部可塑性規則，這些規則在簡單的控制任務中表現良好，但由于優化能力有限，在複雜的機器人控制任務中通常會失敗。

　　一些方法直接将深度Q網絡(DQN)[6]轉換為SNN，并在具有離散動作空間的Atari遊戲中獲得有競争力的分數[34, 35]。然而，這些轉換後的SNN通常表現出低于具有相同結構的DNN的性能[36]。其他方法利用反向傳播(BP)算法通過用恒定微分變量替換非微分部分(近似BP)來訓練SNN[37, 38]。

　　然後一種混合學習架構被提出，通過近似BP算法進行訓練，用于移動機器人的無地圖導航[39]。它包含兩個獨立的網絡，其中具有基本LIF神經元的脈沖actor網絡從發放率編碼狀态推斷動作以表示政策，而深度critic網絡通過計算動作價值來評估actor。然而，發放率編碼狀态的表示能力有限，這可能會影響政策的最優性，并且需要大量的時間表征以獲得高性能，但代價是高推理延遲和能量成本[40, 24]。具有相同混合架構的群體編碼脈沖actor網絡(PopSAN)旨在增強狀态表征并在複雜的連續控制任務上實作比較性能[40]。具體來說，首先将具有較低資料次元的輸入狀态轉換為具有相對較高資料次元的每個值的刺激群體編碼。然後使用計算出的刺激編碼來生成神經元的脈沖序列。該方法主要在輸入尺度上提高了脈沖actor網絡的狀态表征能力，但同時降低了計算效率。

　　相比之下，基于混合學習架構，我們提出的PDSAN從兩個不同的尺度進一步提高了狀态表征能力：網絡外的輸入編碼和網絡内的神經元編碼。在輸入編碼尺度上，與PopSAN不同的是，在對輸入狀态應用群體編碼後，編碼後的模拟資訊直接輸入網絡，具有較高的計算效率和表征能力。在神經元編碼尺度上，動态神經元具有膜電位的一階或更高階動态，以描述更複雜的神經元動态，而不是具有标準一階動态的LIF神經元。我們的模型在複雜的連續控制任務上實作了新的最先進的性能，并在輸入和神經元尺度上具有有效的狀态表征。此外，在SNN[41, 42, 43]中，還有其他關于有效編碼以更好地表示資訊的值得注意的工作。

3. Background

　　本節将介紹一些基本的強化學習理論及其相關的數學背景。一些可能有助于更好地了解我們模型的重要算法也得到了介紹，包括深度Q網絡(DQN)[6]、深度确定性政策梯度算法(DDPG)[44]、雙延遲深度确定性政策梯度算法(TD3)[27]，以及混合學習架構[39, 40]。

3.1. Reinforcement learning foundation

3.2. DQNs

3.3. DDPG

3.4. TD3

3.5. Hybrid learning framework

　　與其深度網絡對應物一樣，混合學習架構中有兩個獨立的網絡[39, 40]，其中一個脈沖actor網絡代表政策，一個深度critic網絡評估actor。該架構中的兩個網絡可以使用近似BP聯合訓練。給定狀态s，脈沖actor網絡生成一個動作a，深度critic網絡估計相關的動作-價值Q(s, a) (或狀态-價值V(s))，進而優化脈沖actor網絡使用特定的DRL算法。脈沖actor網絡在功能上等同于深度actor網絡，可以與任何基于actor-critic的DRL算法內建[40]，例如DDPG、TD3等。

4. Methods

　　我們的TD3-PDSAN模型概述如圖1所示。我們的PDSAN是使用TD3算法與深度critic網絡(即多層全連接配接網絡)一起訓練的。在訓練期間，PDSAN從給定狀态s ∈ Rn推斷出動作a ∈ Rm，并且深度critic網絡估計相關的動作-價值Q(s, a)以指導PDSAN學習更好的政策。經過訓練，學到的PDSAN可以應用到實際任務場景中，與環境進行互動。

　　對于有效的狀态表征，網絡外的輸入編碼和網絡内的神經元編碼從不同的尺度提出，不同狀态表征類型的概述如圖2所示。在PDSAN的輸入編碼子產品中，每個狀态的次元直接使用群體編碼進行編碼，無需額外的發放率編碼，然後饋入多層全連接配接SNN。SNN中的DN包含具有多達兩個平衡點的二階動态膜電位或具有多達一個平衡點的一階動态膜電位，以描述複雜的神經元動态。與[40]類似，平均發放率被群體解碼器解碼為相應的動作次元。

4.1. Input coding

　　在本節中，我們将介紹SNN中的各種類型的輸入編碼方法。對于狀态s ∈ Rn，每個時間步驟t = 1, 2, ... , T1，我們使用這些方法生成輸入I(t), ，其中T1是SNN的時間視窗。

4.1.1. Uniform coding (uni)

4.1.2. Poisson coding (poi)

4.1.3. Deterministic coding (det)

4.1.4. Population coding (pop)

4.1.5. Population coding with rate

4.2. DNs

　　在本節中，我們首先介紹膜電位的常微分方程(ODE)為帶有一個最大平衡點的傳統一階神經元(例如LIF神經元)，然後定義改進的二階神經元。這些神經元都被認為是SNN中神經元動态基本描述的DN。以下各節還将介紹建構這些DN的過程。

4.2.1. The traditional 1st-order neurons

4.2.2. The designed 2nd-order neurons

4.2.3. The procedure for constructing the DNs

　　不同DN的建構主要基于動态神經元中一些關鍵參數的識别。例如，作為θa,b,c,d，這四個參數的每一個設定都描述了脈沖神經元的一個動态狀态。是以，對于SNN，三層神經元(每層包含數百個神經元)将從0到1的均勻分布的随機參數初始化，如圖1所示。

　　θa,b,c,d的這些可學習參數與其他突觸權重Wi,j相結合，将使用TD3-PDSAN算法針對其中一項任務進行調整。學習之後，在大多數可學習變量到達穩定點的地方，這些參數将被繪制并用k-means方法聚類，以獲得θa,b,c,d參數的最優中心。這四個關鍵參數将進一步用作所有任務的所有動态神經元的統一配置。

4.3. The forward propagation of PDSAN and the learning procedure of TD3-PDSAN

　　PDSAN的前向傳播和TD3-PDSAN的學習過程分别顯示在算法1和算法2(在第7節(附錄)中)。

4.4. Training PDSAN with approximate BP

　　我們之前的工作讨論了調整多層SNN的不同方法，包括近似BP[41]、均衡平衡[51, 52]、Hopfield-like調整[53]和受生物學啟發的可塑性規則[54]。在本文中，我們選擇近似BP以有效學習大量參數，同時保留這些參數之間的關鍵關系。近似BP的關鍵特征是将标準BP轉換為BP的分段版本，其中脈沖神經元的非微分部分可以用預先定義的梯度替換，如等式(23)所示。

　　在此，我們分析了PDSAN訓練過程中梯度的逐漸流動。

Population-coding and Dynamic-neurons improved Spiking Actor Network for Reinforcement Learning - 窮酸秀才大艹包

是計算出的動作的損失梯度，用于優化PDSAN的參數。每個輸出群體 j 的參數，j ∈ 1, ... , m，更新如下：

其中fr(j)是平均發放率，并且

是每個輸出群體的解碼參數。

　　SNN的參數使用近似BP更新，其中我們使用矩形函數方程來近似脈沖的梯度。

其中z是僞梯度，v是膜電壓，vth是發放門檻值，w是通過梯度的門檻值視窗。

　　對于每個時間步驟t < T1，我們描述了通過SNN的梯度流。在輸出群體層L，我們有：

其中sc是時間視窗T1上輸出脈沖的總和，o(t)(L)是第L層在時間 t 的輸出脈沖。

　　然後對于每一層，l = L降到1：

其中 c 是電流，dc是電流衰減因子。

其中Y(u(t)(l), v(t)(l))的前向計算過程在算法1中。

　　當t = T1時，通過收集從所有時間步驟反向傳播的梯度，可以計算每層 l 相對于SNN參數的損失梯度：

　　最後，我們計算了損失 J 相對于每個輸入群體 i 的參數的梯度，i ∈ 1, ... , n：

　　我們在每個T1時間步驟之後更新PDSAN的所有參數。

5. Experiments

　　為了評估我們的模型，我們測量了它在來自OpenAI gym的四個連續控制任務上的性能(圖4)[26]。這些任務的詳細資訊如表1所示。我們的實驗目标如下：

從任務中學習DN的動态參數并分析DN的膜電位動态(第5.2節)；
通過針對相應的深度actor網絡和PopSAN(第5.3節)達到我們方法的基準性能，證明PDSAN與TD3算法的內建；
示範群體編碼的(狀态)表征能力，并比較第4.1節(第5.4節)中涉及的各種輸入編碼方法的性能影響；
驗證類似任務最有可能共享類似參數的假設，即從任務中學到的DN的動态參數可以推廣到其他類似任務，并展示DN對LIF神經元的(狀态)表征能力(第5.5節);

5.1. Implement details

　　由于最近對可重複性的擔憂[55]，我們所有的實驗都報告了超過10個網絡初始化和gym模拟器的随機種子。每個任務運作100萬步，每10k步評估一次，其中每個評估報告10個回合的平均獎勵，沒有探索噪聲，每個回合最多持續1000個執行步驟。

　　我們将我們的TD3-PDSAN(将PDSAN與TD3算法內建)與TD3(将深度actor網絡與TD3算法內建)、TD3-Pop(将群體編碼和深度actor網絡與TD3算法內建，它具有與TD3-PDSAN算法相同的參數量)和TD3-PopSAN(将PopSAN與TD3算法內建)，其中深度actor網絡和PopSAN的超參數配置與[40]中使用的相同。除非明确說明，PDSAN和PopSAN訓練使用與深度actor網絡相同的超參數。這些模型的超參數配置設定如下：

(1) TD3:

　　Actor網絡是(256, relu, 256, relu, action dim m，tanh)；Critic網絡是(256, relu, 256, relu, 1, linear)；Actor的學習率為10-3； Critic的學習率為10-3；獎勵折扣因子為γ = 0.99；軟目标更新因子為η = 0.005；回放緩存區的最大長度為T = 106；高斯探索噪聲

；噪聲裁剪為c = 0.5；迷你批大小為N = 100；政策延遲因子為d = 2。

(2) TD3-Pop:

　　Actor網絡是(Population Encoder, 256, relu, 256, relu, Population Decoder, action dim m, tanh)；單個狀态次元的輸入群體規模為p = 10；輸入編碼使用群體編碼(pop for all tasks)；其他配置與TD3相同。

(3) TD3-PopSAN:

　　PopSAN是(Population Encoder, 256, LIF, 256, LIF, Population Decoder, action dim m, tanh)，其中LIF神經元的電流衰減因子、電壓因子和發放門檻值分别為0.5、0.75和0.5；單個狀态次元的輸入群體規模為p = 10；時間視窗為T1 = 5；PopSAN的學習率為10-4；輸入編碼使用pop-det (HalfCheetah-v3 & Ant-v3)和 pop-poi (Hopper-v3 & Walker2d-v3)。

(4) TD3-PDSAN:

　　使用PDSAN (Population Encoder, 256, DNs, 256, DNs, Population Decoder, action dim m, tanh)，其中MDN的電流衰減因子和發放門檻值均為0.5；單個狀态次元的輸入群體規模為p = 10；時間視窗為T1 = 5；PDSAN的學習率為10-4；輸入編碼使用群體編碼(pop for all tasks)。

5.2. Learn and analyze DNs

　　我們選擇Ant-v3作為使用TD3-PDSAN預學習二階DN的基本源任務，然後使用BP(或對于SAN的近似BP)一起訓練所有參數(包括突觸權重和DN的動态參數)，如圖5(a)所示。

　　如圖5(b-c)所示，我們分别得到了圖5(b)中參數θa和θb和圖5(c)中參數θc和θd的聚類中心。為簡單起見，我們在k-means中設定k = 1。DN的最優動态參數為

。然後将θ*進一步用作以下經驗中所有任務的所有動态神經元的統一配置。

　　不同顯性(例如，膜電位V和刺激輸入I)和隐性變量(例如，電阻項U和平衡點值)的神經元動态如圖6所示。

　　對于圖6(a)中的标準LIF神經元，膜電位與神經元輸入成正比。例如，對于值範圍從-1到1的類sin輸入，僅對于強正刺激，動态V被動态積分，直到達到發放門檻值Vth，否則，相應地随着弱正或負刺激而衰減。

　　與LIF神經元不同，DN表現出更高的複雜性，具有額外的隐式U，使得平衡點的動态變化不同。根據DN的定義，U的微小差異會導緻V的大更新，尤其是當公式(19)中的參數b較小時。是以，DN不僅會顯示與正強刺激相似的發放模式，而且會在弱正和負刺激下表現出稀疏發放，而不是像LIF神經元那樣停止發放。該結果表明，與LIF神經元相比，DN具有更好的動态表征。

5.3. Benchmarking PDSAN against deep actor networks and PopSAN

　　我們将TD3-PDSAN與TD3、TD3-Pop和TD3-PopSAN的性能進行了比較。如圖7所示，我們的算法在所有測試任務中都取得了最優性能，這表明我們提出的算法對連續控制任務的有效性。另外，TD3-Pop在四項任務中的大部分(HalfCheetah-v3除外)相比TD3并沒有帶來任何明顯的優勢。圖8中的進一步分析表明，與沒有群體編碼的網絡相比，具有群體編碼的脈沖actor網絡實作了顯着的性能改進。是以，總而言之，群體編碼有助于脈沖actor網絡，但對深度actor網絡沒有明顯優勢。這可能是因為當群體編碼與深度actor網絡相結合時，"過度參數化"網絡可能難以在某些任務中訓練。

5.4. The comparison of various input coding methods

　　我們全面比較了各種輸入編碼方法對性能的影響，同時将神經元編碼方法固定到DN。如圖8所示，在所有四個任務上，單獨的發放率編碼方法(poi)的性能遠不如基于群體編碼的方法(pop-uni、pop-poi、pop-det、pop)。這可能是因為發放率編碼方法對單個神經元的表征能力有固有的限制。對于基于群體編碼的方法，pop在任務ANT-V3、HalfCheetah-v3和Walker2d-v3上取得了最優性能，在任務Hopper-v3上與其他基于群體編碼的方法相當。其他三種基于群體編碼的方法的性能因特定任務而異。直接使用群體編碼後狀态的模拟值作為網絡輸入似乎更有效，而無需進一步使用發放率編碼将模拟值編碼為脈沖序列。此外，我們評估了每個狀态次元具有不同輸入群體大小的pop：p = 2, 5, 10。圖11(在附錄7中)表明當減少輸入群體的大小時，Ant-v3任務的性能下降。

5.5. The representation capabilities of DNs

　　我們在所有四項任務上測試了建構的DN，并将它們與LIF神經元進行比較，同時保持輸入編碼方法與群體編碼(pop)一緻。如圖9所示，DN在所有測試任務上都達到了比LIF神經元更好的性能，包括源任務(其中學習了DN的動态參數，即Ant-v3)和其他類似任務(即HalfCheetah-v3、Walker2d-v3和Hopper-v3)。這一結果最初驗證了類似任務很可能共享類似參數的假設，即從任務中學到的DN的動态參數可以推廣到其他類似任務。雖然沒有嚴格的理論證明，但我們做了很多實驗來進一步驗證這個假設。我們收集了一組空間資料集，包括 MNIST、Fashion-MNIST、NETtalk和Cifar10，以及時序資料集，包括TIDigits和TIMIT。我們從MNIST和TIDigits中學習了一組動态神經元，分别稱為空間動态神經元和時間動态神經元。然後我們測試了不同動态神經元在不同任務上的性能，結果總結在表2中。

　　我們可以從表2得出結論，空間動态神經元在空間任務上更強大，而時間動态神經元在時間任務上表現更好。這一結果與我們之前的假設一緻，即當任務具有相似的屬性和背景時，從其中一項任務中學到的動态參數可以推廣到其他任務，并為其他任務帶來性能提升(例如，空間動态神經元應用于空間任務)。當任務屬于不同類型時，從其中一項任務中學到的動态參數會降低其他任務的性能(例如，應用于時間任務的空間動态神經元)。

　　對于LIF神經元和DN之間的性能差距，了解這些神經元的性質非常重要。與具有标準一階動态的LIF神經元不同，DN包含膜電位的一階和更高階動态，并表現出更高的複雜性，這有助于更強大的狀态表征。此外，我們還記錄了在圖10中的HalfCheetah-v3任務訓練後LIF神經元和DN的脈沖活動。可以觀察到，LIF神經元的脈沖更稀疏，而LIF神經元的脈沖計數或發放率比DN更小，這可能是造成它們性能差距的原因之一。

6. Conclusion

　　狀态表征在SNN和RL的研究中都很重要。本文将網絡輸入的群體編碼和編碼内部網絡的DN內建到一個高效的脈沖actor網絡(PDSAN)中，該網絡在某些基準Open-AI gym任務。

　　DN使神經元具有更高的計算複雜性，顯示出比簡單LIF神經元更複雜的膜電位動态。我們認為在神經元尺度上共謀的增加對網絡尺度的貢獻更大。這一特性也可能顯示出在節能計算方面的優勢。此外，PDSAN中DN産生的脈沖使神經元之間的計算成本低于對應的DNN。我們認為生物學的靈感将為我們提供更多關于更好算法的提示，這些算法具有更快的學習收斂性、更低的能量成本、更強的适應性、更高的魯棒性和更好的可解釋性。

7. Appendix