彼節者有間，而刀刃者無厚；以無厚入有間，恢恢乎其于遊刃必有餘地矣 ----- 庖丁解牛

前言：随着移動網際網路、IoT、5G等的應用和普及，一步一步地我們走進了數字經濟時代。随之而來的海量資料将是一種客觀的存在，并發揮出越來越重要的作用。時序資料是海量資料中的一個重要組成部分，除了挖掘分析預測等，如何高效的壓縮存儲是一個基礎且重要的課題。同時，我們也正處在人工智能時代，深度學習已經有了很多很好的應用，如何在更多更廣的層面發揮作用？深度學習的本質是做決策，用它解決具體的問題時很重要的是找到契合點，合理模組化，然後整理資料優化loss等最終較好地解決問題。在過去的一段時間，我們在用深度強化學習進行資料壓縮上做了一些研究探索并取得了一些成績，已經在ICDE 2020 research track發表（Two-level Data Compression using Machine Learning in Time Series Database）并做了口頭彙報。在這裡做一個整體粗略介紹，希望對其它的場景，至少是其它資料的壓縮等，帶來一點借鑒作用。

1. 背景描述

1.1 時序資料

時序資料顧名思義指的是和時間序列相關的資料，是日常随處可見的一種資料形式。下圖羅列了三個示例 a）心電圖，b）股票指數，c）具體股票交易資料。

深度強化學習在時序資料壓縮中的應用--ICDE 2020收錄論文 1. 背景描述2. 時序資料的壓縮3. 兩階段的基于深度學習的壓縮算法4. 深度強化學習5. 結果資料6. 相關人員和緻謝

關于時序資料庫的工作内容，簡略地，在使用者的使用層面它需要響應海量的查詢，分析，預測等；而在底層它則需要處理海量的讀寫，壓縮解壓縮，采用聚合等操作，而這些的基本操作單元就是時序資料，一般（也可以簡化）用兩個8 byte的值進行統一描述。

可以想象，任何電子裝置每天都在産生各種各樣海量的時序資料，需要海量的存儲空間等，對它進行壓縮存儲及處理是一個自然而然的方法。而這裡的着重點就是如何進行更高效的壓縮。

1.2 強化學習

機器學習按照樣本是否有groundTruth可分為有監督學習，無監督學習，以及強化學習等。強化學習顧名思義是不停得努力得去學習，不需要groundTruth，真實世界很多時候也沒有groundTruth，譬如人的認知很多時間就是不斷疊代學習的過程。從這個意義上來說，強化學習是更符合或更全面普遍的一直處理現實世界問題的過程和方法，是以有個說法是：如果深度學習慢慢地會像C/Python/Java那樣成為解決具體問題的一個基礎工具的話，那麼強化學習是深度學習的一個基礎工具。

強化學習的經典示意圖如下，基本要素為State，Action，和Environment。基本過程為：Environment給出State，Agent根據state做Action決策，Action作用在Environment上産生新的State及reward，其中reward用來指導Agent做出更好的Action決策，循環往複….

而常見的有監督學習則簡單很多，可以認為是強化學習的一種特殊情況，目标很清晰就是groudTruth，是以對應的reward也比較清晰。

強化學習按照個人了解可以歸納為以下三大類：

DQN：Deep Q network，比較符合人的直覺感受邏輯的一種類型，它會訓練一個評估Q-value的網絡，對任一state能給出各個Action的reward，然後最終選擇reward最大的那個action進行操作即可。訓練過程通過評估"估計的Q-value“”和“真正得到的Q-value”的結果進行反向傳遞，最終讓網絡估計Q-value越來越準。
Policy Gradient：是更加端到端的一種類型，訓練一個網絡，對任一state直接給出最終的action。DQN的适用範圍需要連續state的Q-value也比較連續（下圍棋等不适用這種情況），而Policy Gradient由于忽略内部過程直接給出action，具有更大的普适性。但它的缺點是更難以評價及收斂。一般的訓練過程是：對某一state，同時随機的采取多種action，評價各種action的結果進行反向傳遞，最終讓網絡輸出效果更好的action。
Actor-Critic：試着糅合前面兩種網絡，取長補短，一方面用policy Gradient網絡進行任一state的action輸出，另外一方面用DQN網絡對policy gradient的action輸出進行較好的量化評價并以之來指導policy gradient的更新。如名字所示，就像表演者和評論家的關系。訓練過程需要同時訓練actor（policy Graident）和critic(DQN)網絡，但actor的訓練隻需要follow critic的指引就好。它有很多的變種，也是目前DRL理論研究上不停發展的主要方向。

2. 時序資料的壓縮

對海量的時序資料進行壓縮是顯而易見的一個事情，是以在學術界和工業界也有很多的研究和探索，一些方法有：

Snappy：對整數或字元串進行壓縮，主要用了長距離預測和遊程編碼（RLE），廣泛的應用包括Infuxdb；
Simple8b：先對資料進行前後delta處理，如果相同用RLE編碼；否則根據一張有16個entry的碼表把1到240個數（每個數的bits根據碼表）pack到8B為機關的資料中，有廣泛的應用包括Infuxdb；
Compression planner：引入了一些general的壓縮tool如scale, delta, dictionary, huffman, run length和patched constant等，然後提出了用靜态的或動态辦法組合嘗試這些工具來進行壓縮；想法挺新穎但實際性能會是個問題；
ModelarDB：側重在有損壓縮，基于使用者給定的可容忍損失進行壓縮。基本思想是把維護一個小buff，探測單前資料是否符合某種模式（斜率的直線拟合），如果不成功，切換模式重新開始buff等；對支援有損的IoT領域比較合适；
Sprintz：也是在IoT領域效果會比較好，側重在8/16 bit的整數處理；主要用了scale進行預測然後用RLC進行內插補點編碼并做bit-level的packing；
Gorilla：應用在Facebook高吞吐實時系統中的當時sofa的壓縮算法，進行無損壓縮，廣泛适用于IoT和雲端服務等各個領域。它引入delta-of-delta對時間戳進行處理，用xor對資料進行變換然後用Huffman編碼及bit-packing。示例圖如下。
MO：類似Gorilla，但去掉了bit-packing，所有的資料操作基本都是位元組對齊，降低了壓縮率但提供了處理性能；
…

還有很多相關的壓縮算法，總的來說：

它們基本都是支援單模式，或者有限的偏static的模式進行資料的壓縮；
很多為了提高壓縮率，都用了bit-packing (甚至有損壓縮），但對越來越廣泛使用的并行計算不太友好；

3. 兩階段的基于深度學習的壓縮算法

3.1 時序資料壓縮的特性

時序資料來源于IoT、金融、網際網路、業務管理監控等方方面面，形态特性相差很多，然後對資料精确度等的要求也不盡相同。如果隻能有一種統一的壓縮算法進行無差别對待地處理，那應該是基于無損的、用8B資料進行資料描述的算法。

下圖是阿裡雲業務中一些時序資料的示例，無損是從宏觀還是微觀層面，資料的pattern都是五花八門的，不僅僅是形狀曲線，也包括資料精度等。是以壓縮算法很有必要支援盡量多的一些壓縮模式，然後又可以既有效又經濟地選擇其中一種進行壓縮。

對于一個大型的商用的時序資料壓縮算法，需要重點關注三個重要的特性：

Time correlation：時序資料有很強的時間相關性，然後對應的資料基本上是連續的。采樣間隔通常是1s，100ms等；
Pattern diversity：如上圖，pattern及特性差距會很大；
Data massiveness：每天、每小時、每秒需要處理的資料量都是海量的，總體處理資料至少是在每天10P的level，對應的壓縮算法需要高效且有高吞吐率。

3.2 新算法核心理念

追本溯源，資料壓縮的本質可分為兩階段：首先Transform階段把資料從一個空間轉化到另外一個更規則的空間，然後在內插補點編碼階段用各種各樣的辦法較好的辨別變換後的內插補點。

根據時序資料的特點，可以定義以下6個基本的transform primitives（可擴充）。

然後定義以下3中基本的differential coding primitives（可擴充）。

接下來把上面的兩種tools排列組合進行壓縮？這樣可行但效果肯定是不太好，因為模式選擇和相關參數的cost比重太高了，需要2B（primitive choice + primitive parameter）的控制資訊，占了8B需要表達資料的25%。

更好的應該是對資料的特性進行抽象化分層表達，示意圖如下。建立一個控制參數集較好的表達所有的情況，然後在全局(一個timeline)層面選擇合适的參數來确定一個搜尋空間（隻包含少量的壓縮模式，譬如4種）；然後在具體進行每個點的壓縮時，周遊從中選擇出最好的那一種壓縮模式進行壓縮。控制資訊的比重在~3%。

3.3 兩階段壓縮架構AMMMO

AMMMO（adatpive multiple mode middle-out）整體過程分為兩個階段，第一階段确定目前這條時間線的總體特性（确定9個控制參數的具體值）；然後在第二階段在少量的壓縮模式中周遊并查找最後的一種進行壓縮，具體框圖如下。

第二階段的模式選擇沒有難度，邏輯簡單适合高效率執行；第一階段确定各參數值（9個這裡）得到合适的壓縮空間有比較大的挑戰，需要從理論上的300K多個排列組合選擇裡找出合适的那一個。

3.4 基于規則的模式空間選擇算法

可以設計一種算法，譬如建立各個壓縮模式的效果記錄牌(scoreboard），然後周遊一個timeline裡的所有點并進行分析記錄，然後再經過統計分析比較等選擇最好的模式。一些顯而易見的問題有：

選擇的評估名額是否理想？
需要人工去思考并編寫程式，有較多的實作，debug和maintain的工作量；
如果算法中的primitive，壓縮模式等做了改變，整個代碼都需要重構，基于上面的選擇不是理論選擇，需要一種自動且較智能的方法支撐不停的演化等。

4. 深度強化學習

4.1 問題模組化

簡化上面的整個模式空間選擇算法如下圖，我們可以把這個問題等同于多目标的分類問題，每個參數就是一個目标，每個參數空間的取值範圍就是可選擇的類目數。深度學習在圖像分類，語義了解等方面證明了它的高可用性。類似地，咱們也可以把這裡的模式空間的選擇問題用深度學習來實作，把它當做一個multi-label的classification問題。

用什麼樣的網絡？考慮到識别的主要關系是delta/xor, shift，bitmask等為主，cnn不恰當，full-connect的mlp比較合适。相應地，把一條時間線上的所有點，如果1小時就是3600個共3600*8B，有些太多，考慮到同一timeline内部一段一段的相似性，把32個點作為一個最基本的處理單元。

接下來，怎麼去建立訓練樣本？怎麼給樣本尋找label呢？

在這裡我們引入了強化學習，而不是有監督的學習去訓練，因為：

去建立有label的樣本很難：32個樣本256B，理論上sample有256^256中可能性，對每個這種樣本，需要周遊300K的可能性才能找出最好的那一個。建立及選擇sample，create label的工作量都非常大；
這不是普通的one-class-label問題：給定一個樣本，并不是有唯一的最好的一個結果，很有可能很多的選擇都能取得相同的壓縮效果；N class（N基本不可知）的訓練又增加了很多難度；
需要一種自動化的方法：壓縮的tool等參數選擇很有可能是需要擴充的，如果發生整個訓練樣本的建立等都需要重新再來。需要一種自動化的辦法。

用什麼樣的強化學習呢？DQN，policy gradient, 還是actor-critic? 如前面分析，DQN是不太适合reward/action不連續的的情況，這裡的參數，譬如majorMode 0和1是完全不同的兩種結果，是以DQN不合适。此外，壓縮問題一方面不容易評價另外網絡也沒有那麼複雜，不需要actor-critic。最終我們選擇了policy gradient。

Policy gradient常見的loss是用一個慢慢提高的baseline作為衡量标準來回報目前的action是否合适，但這裡并不太合适（效果嘗試了也不太好），因為這裡sample的理論block(256^256) state太多了一些。為此，我們專門設計了一個loss。

得到了每個block的參數後，考慮到block的相關性等。可以用統計的辦法，聚合得到整個timeline的最終參數設定。

4.2 深度強化學習網絡架構

整體的網絡架構示意圖如下：

在訓練端：随機選擇M個block，每個block複制N份，然後輸入到有3個隐含層的全連接配接網絡中，用region softmax得到各參數各種choice的機率，然後按照機率去sample每個參數的值，得到參數後輸入到底層的壓縮算法進行實際壓縮并得到壓縮值。複制的N個block互相比較計算loss然後做反向傳播。loss的整體設計為：

fn(copi)描述了壓縮效果，比N個block的均值高就正回報，Hcs(copi)是交叉熵，希望得分高的機率越大越确定越好；反之亦然。後面的H（cop)是交叉熵作為正則化因子來盡量避免網絡固化且收斂到局部最優。

在推理端，可以把一個timeline的全部或局部block輸入到網絡中，得到參數，做統計聚合然後得到整個timeline的參數。

5. 結果資料

5.1 實驗設計

測試資料部分一方面随機選取了阿裡雲業務IoT和server兩個大場景下共28個大的timeline；另外也選取了時序資料分析挖掘領域最通用的資料集UCR。基本資訊如下：

對比算法選取了比較有對比性的Gorilla，MO和Snappy。因為AMMMO是兩階段的壓縮算法架構，第一階段的參數選擇可以有各種各樣的算法，這裡選用了Lazy（簡單粗暴的設定一些普世參數），rnd1000Avg（随機1000次取效果平均值），Analyze（用人工代碼的算法)和 ML（深度強化學習的辦法）等。

5.2 壓縮效果對比

首先從整體壓縮率來看，AMMMO兩階段自适應多模式的壓縮比起Gorila/MO等有明顯的效果提升，平均壓縮率提升在50%左右。

然後ML的效果怎麼樣呢？下圖在ML的視野對比了測試集B上的壓縮效果，總的來說，ML相比人工精心設計的算法略好，比随機平均等明顯好很多。

5.3 運作效率

AMMMO借鑒了MO的設計思想，移除了bit-packing，不僅僅在CPU上能高速運作，也特别适合于并行計算平台如GPU。此外AMMMO分兩階段，其中第一階段的性能會差一些，但很多時候，譬如對一個特定的裝置過去2天的資料，全局壓縮參數是可以複用的。下圖描述了整體的性能對比，實驗環境為“Intel CPU 8163 + Nvidia GPU P100"，其中AMMMO的代碼使用了P100。

從上圖中看出，AMMMO在壓縮端和解壓縮端都能達到GB/s的處理性能，性能名額還是很不錯的。

5.4 算法學到的效果

深度強化學習訓練的網絡從最終效果上看着不錯，那它是不是真的有學到有意義的内容呢？下标對比了3中算法在幾個測試集上的表現，可以看出，ML版本的參數選擇和分析算法/最優效果選擇是差不多的，特别是在byte offset和majorMode的選擇上。

這種壓縮的全連接配接網絡參數表象會是怎麼樣的？對第一層進行了參數heatmap可視化（正的參數為紅色，負的為藍色，值越大顔色越亮），如下：

可以明顯看到32個點在相同的byte上有很多規則的操作，豎線（如果跨越byte則混淆情況），可以認為是在對應的位置上做delta或xor運算等。然後數字變動最大的Byte0的參數也比較活躍。

綜上，深度學習學到的東西還是挺有解釋性的。

6. 相關人員和緻謝

在整個過程中，Yanqing peng，飛刀，汪晟，樂予，麥君和Yue Xie等一起付出了很多的努力，特别感謝飛刀老師的方向指引和總體判斷；

此外，特别感謝矽厲等在工作中給予的支援，感謝德施等在業務上給予的幫助和支援。

深度強化學習在時序資料壓縮中的應用--ICDE 2020收錄論文 1. 背景描述2. 時序資料的壓縮3. 兩階段的基于深度學習的壓縮算法4. 深度強化學習5. 結果資料6. 相關人員和緻謝

1. 背景描述

1.1 時序資料

1.2 強化學習

2. 時序資料的壓縮

3. 兩階段的基于深度學習的壓縮算法

3.1 時序資料壓縮的特性

3.2 新算法核心理念

3.3 兩階段壓縮架構AMMMO

3.4 基于規則的模式空間選擇算法

4. 深度強化學習

4.1 問題模組化

4.2 深度強化學習網絡架構

5. 結果資料

5.1 實驗設計

5.2 壓縮效果對比

5.3 運作效率

5.4 算法學到的效果

6. 相關人員和緻謝

繼續閱讀

2021年危險化學品經營機關安全管理人員考試題庫及危險化學品經營機關安全管理人員考試技巧

學習軟體測試基礎測試第七天

Zeppelin 配置通路 REST APIApache Zeppelin Configuration REST API

【Torch】最簡潔logging使用指南

筆試面試題目：滑動視窗(二)

27. Remove Element(清單)題目代碼

資料結構與算法（27）——排序（二）

Dijkstra--簡易版（最短路徑）

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

Cloud Studio初體驗

使用 ctypes 進行 Python 和 C 的混合程式設計

【python】【資料處理】畫多元資料分布圖

【python】netconf協定對接管理裝置

「Python 網絡自動化」NETCONF —— Python 使用 NETCONF 管理配置 H3C 網絡裝置

在python中建立excel并寫入

hdu7108哈希