天天看點

基于機器學習的工控安全風險評估1 引言2評估流程3評估要素4 評估模型5 五種模型優缺點

1 引言

    随着工業控制網絡與企業資訊網絡的不斷融合,工業控制系統的安全管理受到了重大的挑戰。工控系統安全等級評估是安全管理的重要内容,傳統的安全等級評估方法主要有故障樹分析法、層次分析法、模糊綜合評判法、基于D-S證據理論的評估方法。傳統的評估方法過多地依賴專家的經驗,根據專家的經驗确定評估模型的相關參數,模型的性能較差。近幾年基于大規模資料分析的機器學習評估方法受到衆多學者的關注,下面簡要闡述。

2評估流程

    工業控制系統安全等級評估的一般流程流程如下圖所示。

基于機器學習的工控安全風險評估1 引言2評估流程3評估要素4 評估模型5 五種模型優缺點

    注:機器學習用于工控安全風險評估,可在上圖中藍色方框處改進。

3評估要素

    工業控制系統安全風險評估要素大同小異,如下圖所示。

基于機器學習的工控安全風險評估1 引言2評估流程3評估要素4 評估模型5 五種模型優缺點

4 評估模型

    基于機器學習的安全等級評估方法把安全等級評估模型看作是一類分類模型,通過訓練大量帶标簽的樣本資料使用機器學習算法學習得到模型,下面簡介5種,并清單進行對比。

4.1 基于SVM的評估模型

    與傳統的靠專家經驗指定參數差别較大。支援向量機(Support VectorMachines, SVM)是一種通用的機器學習算法,它的一個顯著特點是用滿足Mercer條件的核函數代替原模式空間的矢量數積運算實作非線性變換,它的實質是将原模式空間變換至一個高維空間,使模式在高維空間中線性可分。

    使用SVM進行評估的目标就是通過對訓練樣本的學習,求得評估函數f(x),該函數能在測試集上盡可能正确分類,進而實作對工業控制系統安全等級的分類預測。使用SVM求評估函數f(x)的模型結構如下圖所示。

基于機器學習的工控安全風險評估1 引言2評估流程3評估要素4 評估模型5 五種模型優缺點

4.2 基于C4.5決策樹評估模型

     基于C4.5決策樹分類算法是基于資訊增益率建構決策樹,在訓練階段和測試階段都隻要進行簡單的比較,是以計算比較簡單且對資料類别無要求。

    相對于其他的機器學習分類算法, ISRAD(intelligent informationsecurity risk assessment based on decision tree algorithm , 基于決策樹的智能資訊安全風險評估方法)方法将C4.5決策樹的分類方法應用于資訊安全風險評估,對評估結果進行量化描述,在處理離散型資料時, ISRAD 方法在識别正确率和速度上獨有優勢。

     ISRAD 方法利用定性和定量相結合的綜合評估方法中的層次分析法對影響資訊安全風險評估的要素進行分解 ,對層次分解後的評估要素及評估結果進行專家評分 , 用 C4.5決策樹對評分得到的資料進行訓練與測試。基于C4. 5決策樹的分類算法對資料分布無任何要求, 其資訊安全風險評估方法具有良好的發展前景 ,兼有較高的實用價值 ,可以在實際的風險評估工作中廣泛應用。

4.3 基于 BP 神經網絡評估模型

     應用BP(Back Propagation,反向傳播)網絡進行風險評估的基本原理是: 把用于描述評估的各風險因素的風險等級作為神經網絡的輸入向量, 将對系統的風險評估值作為神經網絡的輸出。使用網絡前, 用一些傳統方法評估取得成功的系統樣本訓練這個網絡, 使它所特有的權值系數值經過自适應學習後得到正确的内部關系, 訓練好的神經網絡便可作為風險評估的有效工具了。

    反向傳播神經網絡(Back Propagation Neural Network)是目前最成熟, 應用最廣泛的人工神經網絡之一, 其基本的網絡是三層前饋網絡。包括輸入層、隐含層、輸出層。對于輸入信号, 要先向前傳播到隐含節點,經過函數作用後, 再把隐含節點的輸出資訊傳遞到輸出節點,最後得到輸出變量結果, 神經元節點函數通常取為 S 型函數。BP 網可以實作從輸入到輸出的任意複雜的非線性映射關系,并具有良好的泛化能力, 能夠完成複雜模式識别的任務。 BP 網的典型結構如圖 5所示。

基于機器學習的工控安全風險評估1 引言2評估流程3評估要素4 評估模型5 五種模型優缺點

     算法的學習過程由正向傳播過程和反向傳播過程組成, 在前一個過程中, 輸入資訊從輸入層經隐含單元逐層處理, 并傳向輸出層, 每一層神經元的狀态隻影響下一層的神經元狀态。如果在輸出層不能得到期望的輸出, 則轉入反向傳播, 将誤差信号沿原來的連接配接通路傳回, 通過修改各層神經元的權值, 使得誤差信号最小。

4.4 基于樸素貝葉斯評估模型

     樸素貝葉斯分類是貝葉斯分類中最簡單,也是常見的一種分類方法。樸素貝葉斯算法成立的前提是各屬性之間互相獨立。當資料集滿足這種獨立性假設時,分類的準确度較高,否則可能較低。核心算法為貝葉斯公式:

基于機器學習的工控安全風險評估1 引言2評估流程3評估要素4 評估模型5 五種模型優缺點

     換個表達形式就會明朗很多,如下:

基于機器學習的工控安全風險評估1 引言2評估流程3評估要素4 評估模型5 五種模型優缺點

4.5 基于KNN評估模型

     KNN(K Nearest Neighbor)算法,又稱K鄰近算法,kNN算法的核心思想是如果一個樣本在特征空間中的k個最相鄰的樣本中的大多數屬于某一個類别,則該樣本也屬于這個類别,并具有這個類别上樣本的特性。該方法在确定分類決策上隻依據最鄰近的一個或者幾個樣本的類别來決定待分樣本所屬的類别。KNN算法模型如下圖所示。

基于機器學習的工控安全風險評估1 引言2評估流程3評估要素4 評估模型5 五種模型優缺點

5 五種模型優缺點

     針對上文5種方法,優缺點對比如下表所示。

評估模型 優點 缺點
SVM

主觀性小

對小樣本适應性強

可用于線性/非線性分類

計算次數多

對參數和核函數的選擇比較敏感

C4.5決策樹

計算簡單,易于了解

對資料類别無要求

準确率較高

構造樹時需對資料集多次掃描和排序,算法效率低

資料量較大時,不易求解

BP網絡

避免主觀性、簡單性

結果更有效客觀

選取樣本資料量有限
樸素貝葉斯

對小規模的資料表現很好

适合多分類任務

對輸入資料的表達形式很敏感
KNN

思想簡單,理論成熟

可用于非線性分類

對資料類别無要求

計算量大

樣本不平衡問題

需要大量的記憶體

繼續閱讀