序

這是一篇來自IEEE ACCESS的paper（影響因子19年3.745），18年4月發表，到本部落格的時間點被引了18次，值得一提的或許是這文的一作是一個IEEE的Fellow YANG YANG。

摘要

覆寫範圍和系統容量的折衷及聯合優化在大規模MIMO無線系統中是重要且有挑戰性的。

本文提出的方法名為GAUSS（Group Alignment of User Signal Strength），用來支援大規模MIMO系統的使用者排程，為優化覆寫範圍和系統容量（CCO, Coverage and Capacity Optimization）提供有效參數。
此外，還提出了一種基于DRL的聯合優化覆寫範圍和系統容量的算法（DECCO），其使用神經網絡動态推到CCO期間的GAUSS和SINR_min。
此外，還提出了一種小區間幹擾協調（ICIC）以增強CCO的性能。

經仿真，DECCO可以在系統容量和覆寫範圍之間進行平衡，并且可以顯著提升頻譜效率。

結論

we can set learning clusters to account for learning gains decreasing as opposed to the scale of networks. 未來将在大規模學習中實作覆寫率和容量的優化。

介紹

MU-MIMO（多使用者MIMO）可獲得比SU-MIMO（單使用者MIMO）更好的性能，其可以在同一頻譜資源上對cell内的多個UE提供服務，借此改善頻譜效率。CCO相關的系統參水包括參考信号功率、天線傾角、排程參數等。但是在MU-MIMO系統中配置這些參數以改善CCO是困難的。

具體來講，使用者排程機制負責給具有精确的時間和頻率分辨率的BS配置設定合适的頻譜資源，同時考慮信道品質和QoS要求。是以我們可以通過找到合适的排程參數來解決CCO而非調整天線傾角。

paper	時間和會議	方法	目的	不足
[6]A self-optimization method for coverage-capacity optimization in OFDMA networks with MIMO	2011; icst	[論文筆記]DECCO: Deep-Learning Enabled Coverage and Capacity Optimization for Massive MIMO Systems序摘要結論介紹系統模型及問題陳述使用者信号強度的分組對準基于學習的覆寫、容量聯合優化仿真結果 -fair （一個優化算法）	改善覆寫範圍	僅在SU-MIMO下研究
[7]A novel dynamic Q-learning-based scheduler technique for LTE-advanced technologies using neural networks	2012; IEEE LCN	動态QL	聯合優化系統容量和使用者公平	僅在SU-MIMO下研究
[8]Joint user scheduling and power allocation for massive MIMO downlink with two-stage precoding	2016; ICCC	JSDM空間劃分及複用	聯合優化使用者排程和功率配置設定	僅優化系統速率，沒考慮覆寫範圍
[9]Joint spatial division and multiplexing: Realizing massive MIMO gains with limited channel state information	2012; CISS	MAX user scheduling; Lagrange power optimization	聯合優化使用者排程和功率配置設定
[10]User grouping and scheduling for large scale MIMO systems with two-stage precoding	2014; ICC	K-means	使用者分組，給不同組配置設定資源	僅優化系統速率，沒考慮覆寫範圍

本文關鍵貢獻

提出了一種新穎的排程參數GAUSS，以及統一的服務品質門檻值SINRmin，以解決大規模MIMO系統中CCO的難題。
提出了一種CCO算法 DECCO，其可通過使用者排程方案中的預訓練神經網絡以及新穎的ICIC方案，動态推導GAUSS和SINRmin的最優組合。
重要名額：小區平均頻譜效率、小區邊緣的頻譜效率，系統容量和覆寫範圍。

系統模型及問題陳述

大規模MIMO模型

[論文筆記]DECCO: Deep-Learning Enabled Coverage and Capacity Optimization for Massive MIMO Systems序摘要結論介紹系統模型及問題陳述使用者信号強度的分組對準基于學習的覆寫、容量聯合優化仿真結果

如圖1所示，我們考慮大規模MIMO的下行傳輸，綠色部分表示小區中心，虛線與實線之間表示小區邊緣。對于該系統的CCO來說，用CSAE（小區平均頻譜效率）和CESE（小區邊緣頻譜效率）來描述系統容量，前者是小區中心範圍内使用者的頻譜效率的平均，後者是小區邊緣内使用者的頻譜效率的平均。

每個BS有M_t個天線，最多可同時使用N_r個天線為K個使用者提供服務。假設M_t * (K * N_r)維的信道矩陣H在信道相幹時間内不變。采用FDD（頻分雙工）的兩階段預編碼方案，接收信号y如下表示：

其中d是傳輸資料符号向量，z是高斯噪聲，B是外部預編碼輸出，P是内部預編碼輸出，H是信道矩陣。假設UE的信号以平均功率配置設定，标準化接收信号

如下表示：

其中P_t是BS的總傳輸功率，N是噪聲功率，x和n是标準信号和高斯噪聲。Tr()表示矩陣的迹

問題陳述

考慮到幹擾，使用者的SINR可表示為：

在MU-MIMO的下行網絡中，BS的天線數量比小區内總的接收天線數量要多，是以使用分布式的兩階段編碼方案可減少小區間/内幹擾。

瞬時頻譜效率表示為：

K是使用者數目，\ryo是第k個使用者的SINR。

某一特定區域的KPI定義為：

其中CASE用50%的CDF表示，CESE用5%的CDF表示。

優化問題模組化為：

G是使用者的組，其中使用者的數量不能超過K*。

使用者信号強度的分組對準

本節介紹最優參數集GAUSS，根據奇異值分解（SVD），可得到：

把(8)代入(5)且

可得到：

其中\lambda是MIMO中每個使用者的信道增益，對于小區邊緣的使用者此值較大，式(9)也可寫為：

其中

，

。到這裡我們可得知頻譜效率由小部分信道增益因子大的使用者來決定。如果小區中心的使用者和邊界的使用者同時排程，那麼中心使用者的吞吐量将會因邊界使用者而降低。也就是說，為了防止上述情況出現，我們需要保證

和

不要差距太大。為此，我們引入了新的參數“GAUSS”：

我們使用

表征i号使用者的平均信道增益，那麼式(10)可以表示為

使用者的平均信道增益因子按升序排序，再結合使用者信号強度R的組對齊，可獲得圖2。

選擇一個使用者i後，以使用者ξi的平均信道增益為中心，以使用者信号強度R的組對齊為半徑，确定了可以參與排程過程的合格使用者。ξi左側的使用者信道條件優于使用者i，其右側的使用者信道條件 ξi不如使用者i。根據先前的分析，在排程過程中，我們應該根據使用者的信道條件獲得使用者集，而目标使用者集則由我們如何選擇R來控制，即GAUSS的值。進一步考慮SINRmin，我們可以得到以下不等式

如果ξi小于β，則排程使用者i可以滿足（11）中的限制，并且可以與其他使用者一起排程；否則，使用者i無法滿足（11）中的限制，并且無法與其他使用者一起排程以避免較低的SINR。從這個意義上說，β左側的使用者可以在排程時被重用，但β右側的使用者則不能被重用。另一觀察結果是SINRmin确定了β的位置，随着SINRmin的減小，β的向右移動。是以，使用者的信道狀況越差，系統容量就會降低。但是，由于位于β右邊的使用者的SINR較高，是以可以提高覆寫性能。當增加SINRmin時，系統容量和網絡覆寫範圍反之亦然。

基于學習的覆寫、容量聯合優化

A.先學知識

1）強化學習

RL作為一個model-free的MDP的解法，狀态空間S 動作空間A 獎勵函數r是重要的設計要素，agent是執行動作的主體，其在每個時點觀察環境并擷取自己的狀态資訊s_t，之後選擇動作a_t進行執行。動作執行後發生兩件事：1.狀态從s_t轉移到s_{t+1}；2.擷取收益r_t。

agent僅通過s_t了解環境，僅能控制自己的action。在每次狀态轉移的時候，我們的目标都是最大化回報R（注意與收益不同），R與收益r_t相關，其是一個随機變量，通常用收益的累計折扣期望表征：

，其中\gamma是0~1的折扣系數，表示相比未來的收益更重視目前這步的收益。

2）POLICY

每個時點agent執行決策的過程可以由policy（一種映射關系）表征，

，即在狀态s的情況下選擇a動作執行的機率。在具體問題中，狀态空間和動作空間都很大，是以這個狀态和動作的映射關系一般不會用轉移機率表示。這種情況下，需要利用函數逼近法來表征policy，即

，其中的\theta表示函數的參數（這裡将此函數想象成神經網絡比較合适，因為實際上很多也是用NN的，這個\theta就是神經網絡的參數）。函數逼近的另一個優點在于，agent可以對相似的狀态采取相似的動作。

3）梯度上升算法

部落客注：在強化學習的過程中，我們的總體目标并非是要最大化某個函數，而是要通過疊代不斷更新policy的參數，使其在面對各種狀态s的時候能做出最大化我們關心的參數的動作決策（具體來講，動作決策可以了解為資源配置設定的方案等）。

在沒此狀态轉移更新policy的參數的時候，是以最大化R為目标的，其通常使用梯度上升算法，如下所示：

其中的Q是在狀态s選擇動作a所得到的R的期望（這部分來自Q-learning，可以去看一下）。

參數\theta的更新過程如下圖所示：

B.使用者排程機制

使用者排程需同時考慮頻譜效率和使用者公平性，對于收割使用者，我們使用典型的PF排程銀子。對于其他使用者，我們根據使用者信号強度R采用分組對齊以確定頻譜效率，同時利用SINR_min來確定使用者估計的SINR不小于他來保證系統容量。我們假設L是即将被排程的使用者集合，g是已經已經完成排程的使用者結合，r_k是使用者k的瞬時資料速率，D_k是使用者k的平均資料速率，M是已完成排程的使用者的數量，K*是已完成排程的使用者的最大數量，\labmda_{min}和\lambda_{max}分别是最大和最小的奇異值，R是使用者信号強度最大的分組對齊的數值。

本文嘗試尋找每個TTI中SINR_{min}和R。最終的使用者排程有兩個階段構成：

每個TTI中，通過DRL算法識别SINR_{min}和R。
SINR_{min}和R由後續的使用者排程所使用。

1）深度強化學習算法建構

狀态空間：小區内的每個sector被定義為agent，最大化cell的CASE和CESE。我們定義連續的狀态空間如下

動作空間：動作空間由SINR_min和R的參數及組成。假設存在m個離散的SINR_min和n個離散的R的數值。是以動作空間是m*n的矩陣。我們使用DNN作為函數逼近來計算在于給給定state下的policy，policy的輸出以最大化回報為目标。

收益：由式17決定，由CASE和CESE兩部分組成

其中\eta（0~1）是權衡CASE和CESE的權重。具體的r定義如下（

類似）：

2）訓練

policy用神經網絡來表征，其輸入為狀态s_t，輸出為不同動作的機率數值。每次訓練疊代我們在T個TTI上執行N個episodes(每個episode是從開始到結束的一個完整的馬爾科夫鍊的過程，其中的一個狀态轉移對應一個TTI)。

C.小區内幹擾協調

zero forcing：迫零算法，用于在已知接收信号的前提下，通過導頻得知發射信号

幹擾協調由測量和預編碼完成，緩和小區間幹擾的基本政策是zero forcing，其需要相鄰小區的信道資訊矩陣。為了控制用于區間幹擾協調的發射天線的空間自由度，我們定義了了一新系數：邊緣使用者對于區中心使用者的抑制比

，其是需要抑制幹擾的使用者的百分比，以調整在小區内和小區間空間自由度資源的配置設定。用e_s表示小區邊緣使用者的數量，\delta=1時表示所有的小區邊緣使用者需要執行幹擾抑制，具體的區内幹擾協調方法表示如下：

每個服務小區測量每個UE的下行平均SINR，并計算所有下行平均SINR低于SINR_min的使用者，并将這些使用者定義為小區邊緣使用者。這些小區邊緣使用者按SINR升序排序。
每個服務小區發送一個指令給邊緣使用者以測量強幹擾的小區并且估計強幹擾小區的信道矩陣。
每個服務小區形成如表1所示的幹擾矩陣

[論文筆記]DECCO: Deep-Learning Enabled Coverage and Capacity Optimization for Massive MIMO Systems序摘要結論介紹系統模型及問題陳述使用者信号強度的分組對準基于學習的覆寫、容量聯合優化仿真結果
網絡中的每個小區都與X2接口上的各自的幹擾矩陣表進行互動，并獲得相鄰小區的幹擾邊緣使用者資訊和這些使用者的信道矩陣
預編碼的時候，根據平均SINR的降序排序，每個服務小區選擇信道向量構成零空間的受幹擾使用者，并通過選擇每個相鄰小區的第一個δ * e_s個使用者的信道來進行幹擾抑制
服務小區生成被幹擾使用者信道矩陣的零空間矩陣，并将外部預編碼器與零空間矩陣相乘，以實作對相鄰小區的幹擾抑制
服務小區構造内部預編碼以形成最終的預編碼矩陣

總之，整個DECCO算法是利用使用者預先訓練好的policy和随後的小區間幹擾協調方案組成的，在算法2中得到了總結。

仿真結果

仿真設定

參考國際電信聯盟(ITU)的三維城市宏蜂窩模型，BS内有64個天線，UE有兩個天線，使用JSDM方法作為下行傳輸機制。SINR_min被離散化成15個數值，分别為1dB到15dB，R被離散化成20個數值，分别為25-500。其他參數列入表2。

網絡設計方面：輸入層兩個神經元，分别表示CASE和CESE，輸出層300個神經元，表示SINR_min和R的組合。隐藏層有兩個，每層100個神經元。此網絡共有6,000,000個參數。

網絡訓練

執行1000此疊代，每次疊代運作20次MC估計（Monte-Carlo可參見這篇博文），使用随機梯度下降更新參數。

上圖展示了不同學習率的影響，可見0.01的學習率從長期來看效果較好。

權重因子的影響

這個權重是SASE和CESE之間的占比，圖6展示了CASE的性能，圖7展示了CESE的性能。随着

的增大，對CASE的權重增大，是以其性能也變好。可以看到随着BS數量的增加，CESE的下降速度比CASE下降的更快。從這個意義上說，應随着BS數量的增加，通過學習控制CESE的貢獻權重因子1-\eta，以有效的優化CESE。

與其他CCO算法的比較

一個對照方案為通過實驗獲得的最佳的SINR和R的固定配置，其用FO表示；另一個對照方案為按比例公平排程的CCO方案，記作PF。DECCO算法中根據BS數量的不同，其參數整理如表3。

圖8 9描繪了提出的DECCO算法和FO、PFO算法的比較，FO算法在CASE上的性能優于PFO算法，但他的性能在CESE上的劣于PFO，因為其安排了具有固定門檻值的使用者，這些門檻值無法跟蹤小區間的幹擾變化。随着BS數量的增加，DECCO算法相較于FO的優勢會降低。在使用中，我們可以通過對BS進行分組，以減輕大規模學習的學習效果。

圖10描繪了不同CCO算法頻譜效率的CDF，其中BS的數量N=7，其結果總結在表4中，其中SD是标準差的縮寫。

=0.3的DECCO在CASE上分别比FO算法和PFO算法高5.6％和18.1％。但對CESE，η= 0.3的DECCO算法分别比FO算法和PFO算法分别高62.9％和7.5％。很明顯CESE的性能增益要比CASE大，這是因為CESE的比重要比CASE大。此外，正如我們前面所讨論的，PFO算法在CESE上的性能優于FO算法。

當η= 0.8時，DECCO算法的性能在CESE方面分别比FO算法和PFO算法高22.2％和36.5％，對于CESE，DECCO算法的性能分别比FO算法和PFO算法分别高57.1％和3.8％。與η= 0.3相反，由于CASE在η= 0.8的獎勵計算中起着更重要的作用，是以CASE的性能增益大于CESE。這與我們對權重因素影響的研究相一緻。

一個重要的觀察結果是，與FO算法相比，DECCO算法在最大化CESE方面比CASE具有更大的潛力。除此之外，與PFO算法相比，DECCO算法對CASE的改進更大。此外，DECCO算法的SD值較小，這意味着覆寫率和容量優化性能更加公平和穩定。是以，我們講的DECCO算法在容量覆寫率優化方面通常是最優方法。

[論文筆記]DECCO: Deep-Learning Enabled Coverage and Capacity Optimization for Massive MIMO Systems序摘要結論介紹系統模型及問題陳述使用者信号強度的分組對準基于學習的覆寫、容量聯合優化仿真結果

序

摘要

結論

介紹

系統模型及問題陳述

大規模MIMO模型

問題陳述

使用者信号強度的分組對準

基于學習的覆寫、容量聯合優化

A.先學知識

B.使用者排程機制

C.小區内幹擾協調

仿真結果

仿真設定

網絡訓練

權重因子的影響

與其他CCO算法的比較

繼續閱讀

作業系統筆記（一）計算機系統概述一、作業系統的基本概念二、作業系統的發展與分類三、作業系統的運作環境和體系結構四、異常和中斷五、系統調用

适用于自動駕駛 (ADAS) 平台的ASIL-Ready 智能供電與監控解決方案

車道線檢測資料集

車道線檢測

車道線檢測（筆記）

AlphaGo Zero是如何工作的？——AlphaGo Zero背後的強化學習算法原理

自動駕駛Nvidia Jetson +FPGA設計方案

基于ROS2的話題通訊控制大疆EP基于ROS2的話題通訊控制大疆EP

考證大全 | 證券從業資格考試

敲黑闆！2021年證券從業考試考點預測

2021年銀行從業考試考情介紹,果斷收藏!

證券從業合格證書什麼時候列印？有哪些注意事項？

【幹貨滿滿】初級銀行從業考試《個人理财》重點梳理

2020年經濟師考試，難嗎？

MBA提前面試純幹貨分享

MBA值得學麼