文章 | 任奎
來源 | CAAI會員中心,轉自中國人工智能學會
随着計算機産業發展帶來的計算性能與處理能力的大幅提高,人工智能在音視訊識别、自然語言處理和博弈論等領域得到了廣泛應用。在此背景下,確定人工智能的核心——深度學習算法具有可靠的安全性和魯棒性至關重要。
然而,近年來研究者發現,深度學習模型存在着易受對抗樣本攻擊的安全隐患。攻擊者可以通過向良性資料中添加特定的擾動,生成對抗樣本。附加輕微擾動的對抗樣本不會影響人類的判斷,卻會使深度學習模型産生錯誤結果。同時,對抗攻擊在自動駕駛等場景中的成功實施更加表明了對抗攻擊在現實世界中的可行性。是以 有關對抗攻擊和對抗防禦技術的研究,引起了機器學習和安全領域研究者越來越多的關注。
本文将圍繞深度學習對抗攻擊和對抗防禦領域中最前沿的研究成果,探讨對抗攻擊和防禦技術的理論基礎、經典算法,以及在工業領域的實際部署等研究與應用前沿。
深度學習的對抗性攻擊技術
根據攻擊者可獲得的資訊不同,可将威脅模型劃分成白盒、灰盒和黑盒攻擊三類(見圖1)。白盒攻擊下,攻擊者可以獲得目标模型的全部資訊;灰盒攻擊下,攻擊者僅可擷取模型的結構資訊但無法獲得模型參數,有模型的查詢權限;黑盒攻擊下,攻擊者僅擁有模型的查詢權限。多數攻擊算法都是為白盒模型設計的,但是由于對抗樣本在模型之間具有一定的傳遞性,它們同樣适用于灰盒模型和黑盒模型。
圖 1 對抗攻擊的爆發
上述提到的攻擊算法中,攻擊者要為每個樣本分别生成其對應的對抗擾動,該對抗擾動不會在良性樣本之間傳遞。那麼是否存在一種通用的擾動,使附加該擾動的良性樣本都可以欺騙某一特定神經網絡?通用對抗攻擊算法通過使用所有良性樣本對全局擾動進行疊代更新,進而生成對大多樣本有效的統一擾動。在每次疊代中,對于附加了目前擾動無法欺騙模型的良性樣本,将會為其求解一個類似于L-BFGS的優化問題,以找到該樣本得以欺騙模型所需的最小附加擾動。這一附加擾動将被添加到目前全局擾動中,對全局擾動進行一次更新。最終,附加該全局擾動的大多數良性樣本均可欺騙神經網絡。實驗表明,這種簡單的疊代算法可以有效地攻擊深度神經網絡,例如CaffeNet、GoogleNet、VGG和ResNet等。出乎意料的是,這種可在不同樣本中傳遞的擾動同時可以應用到其他不同模型中,例如在VGG上 制作的通用擾動在其他模型上也可以達到53%以 上的攻擊成功率。
盡管PGD和C&W等對抗攻擊算法在數字領域非常有效,但将其擴充到實體世界仍然需要克服兩個關鍵問題。第一個問題是,環境噪聲和自然變化将破壞數字空間中計算出的對抗性擾動。例如模糊、噪聲和JPEG編碼等會對對抗性攻擊的破壞率超過80%。第二個問題是,在現實世界中,攻擊者僅能在特定物體上添加擾動,而無法對整個環境中的背景添加擾動。Athalye等提出了EoT算法來解決第一個問題。EoT算法不直接使用理想數字域中計算出的梯度用于生成對抗擾動,而 是在樣本上添加了一組随機噪聲,然後對加入這些噪聲的樣本計算梯度,用這些梯度的平均值生成對抗擾動。在基于梯度的攻擊算法(如FGSM和PGD)中采用這種平均梯度,可以提高生成的對抗樣本的魯棒性。Eykholt等提出了一種掩模變換來分離背景和目标,進而可以将對抗性擾動限制在目标區域内,解決了第二個問題。該方法成功地在現實世界的交通标志上生成了可列印的對抗性擾動,其總體攻擊成功率達到80%以上。
除了圖檔分類任務,如圖1所示圖像分割、3D識别、音頻識别和強化學習等工業領域也會受到對抗攻擊的影響。
在3D識别領域,PointNet、PointNet++和 DGCNN等基于點雲的分類分割模型已被證明易收到對抗攻擊的影響。Zheng等提出了基于丢棄點雲中關鍵點的攻擊方法。該方法通過将點移動到點雲的質心,近似計算每個點對分類結果的貢獻,然後通過丢棄具有較大貢獻的點來欺騙神經網絡。随着一定數量的高貢獻點被丢棄,PointNet、PointNet++和DGCNN的分類精度顯著降低。
在音頻識别領域,Carlini和Wagner通過對C&W損耗函數的優化,成功地建構了高品質的音頻對抗性樣本。對于任何音頻信号,隻要在DeepSpeech上對音頻信号的1%進行對抗性幹擾,即可在其對應的文本翻譯中最多影響50個單詞。
在文本識别領域,Liang等提出了針對文本 分類任務的攻擊政策。攻擊者首先确定影響分類結果最重要的文本項,然後對這些重要文本項采用插入、删除、交換、字元替換和單詞替換等擾動措施。實驗表明,這種攻擊可以成功地欺騙一 些基于DNN的文本分類器。
深度學習的對抗性防禦技術
對抗防禦可以分為啟發式防禦和可證明式防禦兩類。啟發式防禦算法由研究者通過實驗獲得,它們在實踐中可以做到對一些特定的對抗攻擊算 法具有良好的防禦性能,但沒有對防禦性能給出理論性保障;可證明式防禦通過理論證明,可以計算出在特定對抗攻擊算法攻擊下模型的最低準确度。
對抗訓練試圖通過将對抗樣本納入訓練階段來提高模型的魯棒性,是目前為止性能最好的啟發式防禦算法。Goodfellow等首先提出對抗訓練,他們使用良性樣本和通過FGSM算法生成的對抗樣本一起訓練神經網絡,用于增強神經網絡的魯棒性;接着,提出了使用由PGD算法生成的對抗樣本進行對抗訓練的方法。根據實驗結果,PGD對抗訓練可在MNIST、CIFAR-10和ImageNet等多個資料集上,在各種L∞攻擊下獲得最高的準确 度。但是,由于生成PGD對抗樣本需要大量計算成本,是以PGD對抗訓練不是一種有效率的防禦措施。FGSM算法可以和随機啟動結合,這樣能高效地生成更多對抗樣本用于對抗訓練,進而提高模型魯棒性。為了解決模型易受到黑盒攻擊問題,提出了內建對抗訓練方法。該方法首先訓練多個具有不同網絡結構模型,然後同時針對這些不同的模型生成對抗樣本,并将其用于對抗訓練。這種方法增加了用于對抗訓練的對抗樣本的多樣 性,進而增強了針對從其他模型轉移過來的對抗樣本的魯棒性。Lee等提出使用生成對抗網絡進行對抗訓練,其中生成器用于生成對抗樣本,這些生成器生成的對抗樣本将與良性樣本一起用于訓練魯棒分類器。雖然沒有給出理論證明,但研究表明對抗訓練在現階段是對抗攻擊最有效的防禦手段之一。
随機化也是啟發式防禦的一種,它通過在模型訓練或使用階段加入随機操作,進而減輕對抗性擾動對模型性能的影響。Xie等在圖像輸入神經網絡前先對圖像進行随機變換,進而減輕對抗擾動的效果。這種方法在黑盒攻擊下獲得了卓越性能,但在白盒攻擊中可被EoT算法成功攻擊。
去噪屬于啟發式防禦,它的主要目的是減輕或去除對抗擾動,進而降低對抗擾動的功能。去噪防禦根據降噪目标不同,可以分為輸入降噪和特征降噪兩類。輸入降噪試圖從輸入中部分或完全消除對抗擾動。Xu等采用減少色彩深度和模糊圖像的方法對圖像進行壓縮,降低圖檔自由度,進而消除對抗擾動。通過比較模型對于原始圖檔與壓縮後的圖檔預測結果的差異,來判斷原始輸 入是否是對抗樣本。Shen等使用生成對抗網絡對輸入資料進行去噪。該方法将訓練一個用于去噪的生成器,其輸入是良性樣本或對抗樣本,其輸出是經去噪後的樣本。Meng等使用自動編碼器技術對輸入資料進行去噪。
以上所有介紹的防禦都是啟發式防禦,這意味着這些防禦的有效性隻在實驗上得到驗證,而沒有在理論上得到證明,如果無法計算理論上的錯誤率,這些啟發式防禦可能會被未來的新攻擊所打破。是以許多研究者緻力于探索可證明的防禦方法,在一類定義明确的攻擊下,這些方法始終能保持一定的準确性。目前有代表性的可證明式算法有基于半正定規劃的可證明式防禦、基于對偶方法的可證明式防禦、分布穩健性證明、稀疏權重DNN、基于KNN的防禦,以及基于貝葉斯模型的防禦等。然而根據現有的實驗結果,可證明式防禦措施的實際性能仍然比對抗訓練的性能差很多。
開放性問題與未來發展
在對抗攻擊與對抗防禦的研究領域中,仍有許多尚未解決的挑戰。
首先,對抗樣本背後的因果關系這一問題并未得到回答。早期對這一問題的研究将對抗樣本的出現歸因于模型結構和學習方法,研究者認為适當的政策和網絡結構将顯著提高對抗樣本的魯棒性。研究者沿着這種思路嘗試過一些探索,特别是與模糊梯度相關的研究,然而實際上這可能是一種不太合理的研究方向。相反,最近的研究發現,對抗樣本的出現更可能是資料次元較高和 訓練資料不足導緻的。
最後,是否存在穩健又高效率的對抗防禦算法?我們仍然沒有發現一種防禦技術能夠很好地平衡防禦效果和運算效率。在有效性方面,對抗性訓練表現出最好的性能,但計算成本很高。在效率方面,許多基于随機和去噪的防禦系統的配置隻需幾秒鐘。然而,最近的許多論文表明這些防禦方法并沒有他們聲稱的那樣有效。可證明防禦理論上為實作對抗防禦指明了一條道路,但其 準确性和有效性都遠遠不能滿足實際要求。
對于該領域的未來發展,我們認為對抗攻擊的研究趨勢主要包括兩個方向。第一個是設計更有效、更強大的攻擊用來評估新興的防禦系統,這個方向的重要性很直覺,我們希望在潛在攻擊者之前評估所有的風險。第二個是實作實體世界中的對抗攻擊。以前對該研究主題的主要疑問是那些對抗性攻擊是否會對實體世界形成真正 威脅。一些研究人員懷疑由于某些環境因素的影響,最初在數字空間中設計的對抗性攻擊将無效。Athalye等首先向良性樣本中添加随機的噪音模拟實體世界的環境因素,并計算這些噪音樣本上産 生的梯度期望,進而實作實體世界的對抗攻擊。Eykholt等進一步考慮了掩膜和制造誤差進而實作了交通标志的對抗性擾動,這些都驗證了實體對抗樣本的存在。
在防禦方面,由于大多數啟發式防禦都無法防禦自适應白盒攻擊,是以研究者開始關注可證明的防禦,這種防禦是指無論攻擊者采用哪種攻擊方式,可證明防禦都可以在一定程度下保證防禦性能。但是到目前為止,可擴充性是目前大多數可證明防禦所普遍具有的問題。例如區間界分析是最近流行的證明式防禦方法,但是它不能擴充到非常深的神經網絡和大型資料集。這主要是因為,攻擊算法隻要針對某一類防禦生效即可, 然而一個有效的防禦算法則需要去防禦所有可能的攻擊手段。
結束語
近兩年來,針對深度學習算法的對抗攻擊和防禦技術迅速發展。然而,對于對抗樣本的成因、一般魯棒邊界的存在等理論問題還沒有找到答案,需要深入研究。不僅如此,在實際安全應用中,還沒有一套有效且通用的對抗防禦技術架構與方法,目前的對抗性訓練防禦技術,在實際部署中計算成本仍然太高。許多啟發式防禦仍缺乏進一步驗證,還不能抵禦自适應性白盒攻擊者的攻擊。簡而言之,要達到有效防禦目标,不僅需要深度 學習算法安全性理論的突破,還需要将系統架構、安全測試、環境适配等多個方面的安全技術相結合,才能推動深度學習對抗性安全的跨越式發展。(參考文獻略)
作者簡介:任奎,浙江大學網絡空間安全學院和計算機學院副院長、求是講席教授,IEEE Fellow,ACM傑出科學家。主要研究領域為資料安全與隐私保護、人工智能安全、物聯網安全和生物認證技術。
* 凡來源非注明“德先生原創”的所有作品均為轉載稿件,其目的在于促進資訊交流,并不代表本公衆号贊同其觀點或對其内容真實性負責,版權歸原作者所有,如有侵權請告知删除。
- 推薦閱讀 -