面向物聯網裝置識别的對抗樣本技術研究
物聯網裝置安全形勢嚴峻,對于裝置管理人員,通過識别裝置擷取裝置相關資訊,可以采取有針對性的安全防護措施。
對于裝置攻擊者,可以基于裝置資訊采取有針對性的攻擊。本文圍繞面向物聯網裝置識别的對抗樣本技術展開研究,通過生成對抗樣本幹擾攻擊者對裝置的識别,進而保護裝置資訊不被惡意利用。
對抗樣本是指通過向原始樣本中加入精心構造的并且人類較難感覺的對抗性擾動,進而欺騙目标模型,造成模型對添加擾動後的對抗性樣本做出錯誤的決策。
同時又不影響人的判斷。本文總結了近年來自然語言進行中對抗樣本的相關工作。根據是否使目标模型給出指定的錯誤判斷,文本對抗可分為定向性與非定向性。
根據對抗擾動的粒度,文本對抗可分為句級、詞級、字級和多級;根據對目标模型的可見性,文本對抗又可分為白盒對抗和黑盒對抗。
在白盒場景下,主流的方法為基于梯度的對抗樣本生成方法;在黑盒場景下,一種重要的方法為基于搜尋空間的對抗樣本生成方法。
物聯網裝置的應用層封包存在差異性,且封包往往攜帶裝置相關資訊,但現有的裝置識别技術忽略了裝置資訊間的關聯關系,難以細粒度、高精度地識别物聯網裝置資訊,且缺乏對未知裝置的識别能力,無法為對抗樣本提供可靠、強有力的對抗目标。
同時,物聯網裝置識别的對抗樣本技術缺乏研究,用于識别的應用層封包資料與圖像、自然語言文本有較大差異。
整體來看,在疊代次數相同的情況下,基于全局最優的随機搜尋算法生成對抗樣本的成功率較低,改動率較高,但通路模型次數較少。
基于局部與全局最優的搜尋算法成功率較高,改動率較低,但通路模型的次數較多。兩種算法制造的擾動均沒有被察覺,側面反映了在構造搜尋空間時對結構、視覺、語義一緻性的控制效果較好。
針對上述問題,主要研究點與貢獻如下。
提出了一種基于實體關系提取模型的物聯網裝置識别方法,從物聯網裝置的應用層封包中提取裝置資訊三元組(裝置類型,廠商,産品型号)。
該方法通過定義關系類型,将裝置類型、廠商、産品型号作為關系中的主體和客體,聯合抽取封包中裝置資訊實體和關系。
此外,該方法基于詞對來對封包中的實體和關系的主體與客體進行辨別,解決了多詞實體以及關系重疊的問題。
此方法充分利用了物聯網裝置封包的語義資訊和裝置資訊實體之間的潛在關系,實作了對物聯網裝置的細粒度識别,提高了對未知裝置的識别能力。
實驗驗證了此物聯網裝置識别方法的有效性,論文在1萬多條測試集上評估已知裝置識别效果,模型F1值能夠達到90.99%。
在1255條封包資料上評估未知裝置識别效果,在能給出裝置識别結果的資料中模型F1值達到了79.10%。
考慮到真實場景下攻擊者的指紋模型是黑盒,本文将對抗樣本的生成轉化為組合優化問題。物聯網裝置指紋的對抗樣本既要影響黑客的威脅模型,又不能影響一般使用者的正常使用。
對抗樣本需滿足結構、視覺、語義一緻性要求,設計了一種結合區域劃分、字元擾動與詞級擾動的搜尋空間構造方法。
此外,設計了兩種搜尋算法用以在搜尋空間尋找對抗樣本。此方法能在黑盒場景下,有效地幹擾黑客或攻擊者的裝置識别,又保證一般使用者的正常通路和使用。
實驗表明本文物聯網裝置指的對抗樣本生成方法在1000條封包資料中,對産品型号的擾動成功率能夠達到85.60%,且生成的對抗樣本較難為人類所感覺。
對于本文提出的物聯網裝置指紋對對抗樣本生成技術,也有進一步改進的空間:(1)搜尋空間的局限性,在構造搜尋空間時,使用的語義相似詞表完全是基于詞向量的餘弦相似度計算,由于裝置封包語料庫的局限,詞與其語義相似詞之間可能與人類了解的語義相似具有一定差距,增加了對抗樣本被感覺的風險。未來可以在搜尋空間的上探索更加強而有效的限制;(2)對抗樣本生成算法的局限性,兩種算法本質上都是随機的搜尋,生成對抗樣本的效率有待進一步提升。未來可以在降低對模型的通路次數上進行深入研究。