天天看点

ICML2023:NNSplitter:一种基于自动权重的DNN模型主动防御方案

ICML2023:NNSplitter:一种基于自动权重的DNN模型主动防御方案

论文使用强化学习选取极少的核进行混淆,解决模型水印和模型加密等方法的问题,思路有点意思

论文题目:

NNSplitter: An Active Defense Solution for DNN Model via Automated Weight Obfuscation

摘要

作为一种有价值的知识产权(IP),深度神经网络(DNN)模型一直受到水印等技术的保护,然而,这种被动的模型保护并不能完全防止模型滥用。在这项工作中,我们提出了一种主动的模型IP保护方案,即NNSplitter,它通过将模型分为两部分来主动保护模型:一是由于权值混淆导致性能较差的混淆模型,二是由混淆权值的索引和原始值组成的模型秘密,这些秘密只能由授权用户在可信执行环境的支持下访问。实验结果证明了NNSplitter的有效性,例如,仅修改超过1100万个权重中的275个(即0.002%),混淆后的ResNet18模型在CIFAR-10上的准确率可以下降到10%。此外,NNSplitter具有隐身性和抗规范剪切和微调攻击的弹性,使其成为DNN模型保护的一个有吸引力的解决方案。

代码:https://github.com/Tongzhou0101/NNSplitter

1. 介绍

尽管深度神经网络(dnn)在各种应用中取得了成功,构建一个高精度的DNN模型成本很高,即需要大量的标记样本和大量的计算资源。因此,高性能DNN模型呈现了模型所有者的宝贵知识产权(IP),这些知识产权自然应该得到充分保护,以防止潜在的攻击。然而,最近的研究表明,数以百万计的设备上机器学习模型容易受到模型IP攻击,攻击者可以提取模型并将其部署在未经授权的设备上,这种未经授权的使用会给模型所有者带来重大的经济损失。

一些研究已经解决了DNN模型的保护问题,大致可以分为两类:被动保护(知识产权侵权后)和主动保护(知识产权侵权前)。虽然被动保护技术(如水印)有助于模型所有者声明所有权并保护其权利,他们不能有效地防止未经授权的使用,因为模型在大多数情况下可以表现得很好。因此,攻击者仍然有动机窃取执行良好的模型,并在模型所有者不知情的情况下使用它。

相比之下,主动保护只允许合法用户使用性能良好的模型,同时故意降低攻击者的模型功能,从而保护模型所有者的利益。然而,主动保护方法的这种优势并不是免费的,它要么需要硬件支持,例如硬件信任,要么引入额外的模型参数。此外,现有的主动保护方法不是通用的,即需要特殊的模型保护、训练策略使它们不适用于预训练的模型。同样值得注意的是,一些故障注入方法也会导致精度下降,使用面向软件或面向硬件攻击方案。但这些作品的设计都是从攻击者的角度出发,无法满足主动防护的要求(如表1所示),具体内容将在2.4节中讨论。

考虑到现有防御策略的这些局限性,我们有动力开发一种通用的主动模型知识产权保护方案。具体来说,我们建议将受害模型拆分为混淆模型和模型秘密,这应该满足表1中详细描述的需求。这种方案的设计提出了以下重大挑战(C)。C1:考虑到我们可以利用的安全内存的大小有限,例如,可信执行环境(TEE) ,存储的模型秘密需要保持较小,而现代DNN模型中有数百万甚至更多的权重。C2:应该为合法用户保留模型功能。C3:混淆的权重应该是难以察觉的,不容易被攻击者识别。C4:攻击者无法通过合理的努力来显著改善已退化的精度。

ICML2023:NNSplitter:一种基于自动权重的DNN模型主动防御方案

为了解决C1问题,我们提出的方案,即NNSplitter,生成一个掩码,在小范围内选择性地混淆权重。这个范围被选择的足够小,使得模糊权重的原始值可以被单个值代替,从而减少了模型秘密的存储需求。为了实现这一目标,我们利用强化学习(RL)算法来设计一个控制器,该控制器可以有效地识别对模型预测有重大影响的重要过滤器。通过关注这些过滤器,我们可以最小化混淆权重的数量,同时仍然实现显著的精度下降。对于C2,在应用模糊权重恢复规则(详见3.1节)后,我们对模型权重进行轮廓化并调整上述小范围,以确保保留原始模型的精度。此外,我们设置了限制,以确保混淆的权重保持在原始权重范围内,以避免被攻击者识别(C3)。最后,我们强制权重变化在各个层之间传播,以增加对潜在攻击面的弹性,以提高准确性(解决C4)。

总的来说,NNSplitter通过将受害模型分成两部分来实现模型IP保护:混淆模型和模型秘密。具体来说,模糊模型容易受到模型提取的影响,但由于权重模糊导致的精度下降使得它实际上毫无用处,有效地减轻了脆弱性。同时,对模型秘密进行TEE保护,提供授权推理,只有授权用户才能访问。

本工作的贡献如下:

•我们系统地定义了主动模型保护的要求,并提出了NNSplitter,该NNSplitter可以在满足所有这些设计要求的情况下自动将受害者模型拆分为混淆模型和模型秘密。

•通过修改受害模型的0.001%权重(~ 300),混淆模型的准确性可以下降到随机猜测,由于低安全内存要求,这是硬件友好的。

•我们证明了所提出的NNSplitter具有抵御潜在攻击的弹性,包括规范裁剪和微调攻击。

2. 相关工作及背景

2.1. 威胁模型

为了确保高效的模型保护,我们考虑一个强大的攻击者,他有能力提取确切的受害者DNN模型,包括其架构和模型参数,使用(Sun et al, 2021)中提到的内存提取等技术。例如,攻击者可以下载使用DNN模型构建的移动应用程序,对其进行反编译,提取模型文件,并将其部署到自己的设备上。此外,我们假设攻击者只有有限的训练数据;否则,他们可以自己训练一个有竞争力的模型,没有强烈的动机去窃取受害者模型。考虑到这些场景,我们的目标是设计一种模型保护方案,可以有效地保护受害模型IP免受这种强大攻击者的攻击。

2.2. 可信执行环境

虽然被动模型IP保护无法保护模型不被窃取或使用,但我们认为TEE是实现主动模型保护的有希望的解决方案。TEE在硬件设备中提供了一种物理隔离方案,将内存分为正常(不可信)世界和安全(可信)世界,其中正常世界可以通过调用安全监视器调用与安全世界通信。这种设置确保只有合法用户才能访问安全世界,而攻击者则被阻止。鉴于TEE在模型保护中的有效性已在先前的工作中得到证明,我们采用了下面的TEE实现方案,而没有深入研究技术细节或考虑TEE的漏洞(例如,侧信道攻击),因为它不是本工作的主要焦点。

重要的是要注意TEE的安全内存是有限的,例如,对于受信任的应用程序,大约10 MB ,另一方面,最先进的(SOTA)深度神经网络模型的规模不断增加,例如,像ResNet-101这样的大型模型超过了155M个参数。为了适应这个限制,我们的方法NNSplitter旨在混淆尽可能少的权重,以最小化安全内存使用的开销。

2.3. 知识产权保护

现有文献已经积极解决了边缘设备上的模型安全问题,并证明攻击者即使没有复杂的技能也可以很容易地提取模型。如上所述,现有的被动模型保护方法,如水印在完全防止模型盗版方面存在局限性。另一方面,已经提出了主动保护方法,例如模型加密,其中模型文件被加密并存储在内存中。然而,加密模型需要在运行时进行解码以进行推理,这仍然容易受到攻击。

为了提高模型IP安全性,Chakraborty等人利用安全硬件支持,提出了一种依赖密钥的反向传播算法来训练权空间混淆的DNN架构。经过混淆后,只允许授权用户在可信硬件上使用嵌入密钥的模型,如果攻击者提取模型并将其部署到其他设备上,则模型的准确性将大大降低。然而,这种方法需要硬件修改,不能普遍用于保护预训练模型。同样,Fan等人提出了一种通过在DNN模型中嵌入护照层来保护模型IP的方法,使得原始任务的DNN推理性能会因伪造护照而显著下降。然而,这项工作旨在防御歧义攻击,并且只能应用于已经嵌入水印的模型。这些现有的方法为模型保护提供了有价值的见解,但是它们要么需要硬件修改,要么在适用性方面有特定的限制。

2.4. 与故障注入的区别

主动模型保护的一个关键点是将性能下降(例如,精度下降)引入受保护模型。虽然目标与故障注入攻击相似,即操纵DNN模型参数引起异常推理,但基本设计要求有很大不同:(i)隐身性:故障注入攻击不考虑模型操作中的隐身性,这引入了极大的幅度变化,可以通过应用权重范围限制很容易区分和去除。(ii)弹性:大多数故障注入攻击只针对输出最直接的参数,例如最后一层的参数。然而,这种攻击对微调是没有弹性的。此外,尽管bitflip 等现有攻击会修改不同层中的权重位以降低模型精度,但这种基于梯度排序的攻击可以通过权重重建来缓解。此外,位翻转攻击的目标是量化DNN模型,其中权值是基于量化方法约束的,而如何确保攻击对浮点精度DNN模型的隐蔽性和弹性还有待研究。

与这些攻击研究形成鲜明对比的是,我们从防御的角度重新思考并解决了上述所有设计限制。具体而言,我们主要探索一种利用TEE硬件支持的主动防御方案,主动阻止攻击者获取功能DNN模型,降低模型提取攻击的动机。我们的工作与现有文献正交,可以普遍应用于任何预训练的模型。

3.建议的方法:NNSplitter

本节给出我们提出的主动DNN模型保护方法NNSplitter,该方法满足有效性、高效性、完整性、弹性和隐身性的要求,如表1所示。

NNSplitter的概述如图1所示,包括离线模型混淆和在线安全推理。在离线阶段,以预训练的DNN模型作为输入(⃝1),掩码生成器根据一定的规则(第3.1节)对权重分布进行轮廓分析,以确定掩码的参数。掩码参数和DNN模型将与数据集一起被送入优化循环(⃝2)。在回路中,我们构建了一个基于rl的控制器来帮助形成一个滤波器掩模,该掩模用于指导模型优化器优化的权重混淆。然后在测试数据集上评估的负精度将作为优化控制器的奖励。当奖励收敛时,即精度停止下降,优化循环将生成两个部分-部署在正常世界(不可信记忆)中的模糊模型(⃝4)和模型秘密(⃝3),其中包括存储在安全世界(可信记忆)中的模糊权重的索引和原始值。

ICML2023:NNSplitter:一种基于自动权重的DNN模型主动防御方案

在在线安全推理过程中,模型逐层执行。在每一层,模糊权重被用来计算一个输出特征映射,该特征映射可能包含某些输出通道中的错误。这些错误被有意地传播到后续层,导致准确性大幅下降。此机制有效地防止攻击者未经授权使用,因为他们从中提取模型

3.1. 问题公式化

给定一个预训练的DNN模型M,其中包含L个卷积/全连接层,其权重为W:= {W(L)}LL=1,我们的目标是找到使分类损失函数LM最大化的最优权重变化∆W(与W大小相同)。为简单起见,我们将W和∆W中的每个元素分别记为wi和∆wi,其中i∈[1,N], N为模型权值的总数。在实现最佳权重混淆后,我们存储非零∆wi和原始wi的指标,以保持受害者模型对合法用户的性能。

掩码生成器 为了降低安全存储要求,我们为∆W设计一个掩码M来确定需要混淆的权重,其定义为:

ICML2023:NNSplitter:一种基于自动权重的DNN模型主动防御方案

其中c和λ都是可控的超参数。使用这个掩模,我们可以细化权重变化∆W ':=∆W⊙M,其中⊙表示元素的乘法。掩模设计的好处是双重的:(i) M只允许[c−λ, c + λ]范围内的权重被混淆。通过选择一个小的λ,我们确保模糊权重接近于一个常量c。这允许我们为这些模糊权重存储一个值,而不是多个不同的值,从而在保留模型功能的同时节省了安全空间;(ii)通过仔细选择c,我们可以将权重混淆分布在各个层上,显著提高对潜在攻击面的弹性,例如微调(参见第5.2节的结果)。此外,我们对∆W '进行了0范数正则化,进一步节省了安全存储空间。

模型优化器 为了提高权值混淆的隐蔽性,我们将混淆权值W+∆W '限制在W的原始值范围内,这是通过式(2)中的超参数α和β来实现的。因此,通过最小化损失函数L(∆W '),可以找到最优的∆W ':

ICML2023:NNSplitter:一种基于自动权重的DNN模型主动防御方案

式中,f为DNN模型M的功能,x为训练样本,y为相应的标签,λ控制权值变化的稀疏度。

然而,考虑到由数百万个参数组成的SOTA DNN模型,仅使用0-norm来最小化权值变化的数量是不够的。考虑到不同滤波器的重要性不同(,例如,与学习目标边缘的滤波器相比,学习背景特征的滤波器贡献较小,我们建议将滤波器明智的权重选择策略嵌入到掩模设计中。该策略涉及仅向选定的重要过滤器添加权重变化,同时仍然满足Eq.(1)中的约束。通过这样做,我们可以进一步减少权重混淆所需的存储空间,同时仍然达到期望的精度退化水平。

尽管如此,由于SOTA dnn中有大量的滤波器,手动选择滤波器来设计最佳的滤波器掩码是不切实际的。因此,我们提出了一个基于rl的控制器来自动选择最优滤波器。

3.2. RL-based控制器

作为NNSplitter的重要组成部分,基于正则表达式的控制器的目标是形成一个滤波器掩码。虽然一种直接的方法是使用控制器生成M设计所需的所有超参数,包括Eq.(1)中的c和λ,但这种设计原则会增加开发控制器的复杂性和优化难度。为了克服这些挑战,同时保持控制器的有效性,我们利用关于模型权重分布的领域知识来确定这两个超参数的值(参见第4.2节的详细信息),并将困难的部分,即选择重要的过滤器,留给控制器。

所开发的控制器由三部分组成:编码初始状态的编码器,决策的策略网络,以及不同层的解码器,将策略网络的输出解码为过滤索引。在该控制器中,agent为每一层(即动作)选择一个索引为k的过滤器,其中k∈[1,k (l)], k (l)表示第l层过滤器(即输出通道)的个数。由于状态K(l)是由受害者模型M的体系结构决定的,因此对于代理来说,环境是静态的。为了为每一层选择n个过滤器(n可以是1),我们将有n个代理总共执行n * L个动作,记为a1:n * L。所有智能体将共享一个权重为θ的控制器,该控制器将通过最大化期望奖励J(θ)进行优化:

ICML2023:NNSplitter:一种基于自动权重的DNN模型主动防御方案

其中π(·)表示给定θ时所采取行动的概率,奖励R由模糊模型的负推理精度构造,由式(4)定义:

ICML2023:NNSplitter:一种基于自动权重的DNN模型主动防御方案

其中ACC为准确率,xt为验证数据集,yt为相应的标签。考虑到R对于控制器输出是不可微的,我们使用策略梯度法:强化算法来最大化J(θ),这与最小化控制器的损失函数相同:

ICML2023:NNSplitter:一种基于自动权重的DNN模型主动防御方案

其中m表示控制器每一集的轨迹数,b表示用于减少更新θ方差的奖励的指数移动平均值。算法1描述了模糊模型生成使用从掩码生成器(第1行)获得的掩码参数c和ε,初始化的控制器将首先设计一个过滤器掩码,通过最小化Eq.(2)(第4-8行)来优化受害者模型,然后控制器使用从受害者模型获得的奖励=来优化自身(第914行)。当奖励收敛时,NNSplitter将输出两部分,即模糊模型和存储在安全世界中的模型秘密。

ICML2023:NNSplitter:一种基于自动权重的DNN模型主动防御方案

4. 实验验证

4.1. 实验设置

数据集 我们评估了NNSplitter在使用三个数据集训练的模型上的有效性:Fashion-MNIST 、CIFAR-10和CIFAR-100 。对于Fashion-MNIST,训练数据集中有来自10个类的60k 28 × 28灰度图像,测试数据集中有10k图像。此外,CIFAR-10/100都有50k的32 × 32的训练图像和10k的测试图像,只是CIFAR-10有10个类,而CIFAR-100有100个类。

基线DNN模型 虽然NNSplitter适用于任何预训练模型,但这里我们考虑几种常用的dnn作为概念验证,包括在上述数据集上训练的VGG-11 , MobileNet-v2和ResNet-18/20 。来证明NNSplitter是一个通用的防御解决方案,不管受害者模型的训练策略如何,即,无训练,我们使用预先训练的模型,其权重在线公开,其中参数设置(例如,层维度)对于不同数据集的相同DNN类可能不同。我们使用在线发布的结构和预训练权重,尽管它们可能无法达到这些数据集上最知名的精度。

比较的方法 由于没有现有的作品遵循与NNSplitter相同的设置和目标,我们提出以下方法进行比较,以证明其有效性。(i)随机:我们没有使用领域知识和基于rl的控制器来设计滤波器掩码,而是假设一种模型保护方法,该方法随机生成一个二进制掩码来选择权重,并通过优化Eq.(2)来混淆它们。为了公平比较,二进制掩码将选择与NNSplitter相同数量的混淆权重。(ii) BaseNNSplitter:该方法在每层随机选择滤波器,而不是使用基于rl的控制器来优化选择。

4.2. Hyper-parameters设置

权值限制 为了增强权值变化的隐潜性,我们在Eq.(2)中使用了两个超参数α和β,以确保混淆权值与正常权值无法区分,从而避免了异常值检测。考虑到一般情况下min{wi} < 0, max{wi} > 0, α和β的值在(0,1)范围内。具体来说,在接下来的实验中,它们被设置为0.95。

ICML2023:NNSplitter:一种基于自动权重的DNN模型主动防御方案

掩模的设计 掩模设计依赖于权重分布的领域知识,具体来说,为了确定掩模超参数c和λ,我们分析了每层的权重分布,并将中位数的平均值作为c,这将鼓励权重变化在各个层之间传播,如图2所示。至于确定ϵ,其原则是确保用c替换[c−ϵ,c +ϵ]范围内的权重时能保持精度。因此,c越接近总权重的中位数,ϵ就越小。否则会造成较大的精度损失,无法恢复基线精度。详情见表2。

ICML2023:NNSplitter:一种基于自动权重的DNN模型主动防御方案

控制器的设计 我们方法中基于rl的控制器遵循与神经架构搜索相似的设计,即使用递归神经网络(RNN)构建策略网络,其中RNN策略网络的嵌入维数和隐藏维数分别设置为256和512。此外,我们使用单热编码对初始状态进行编码,作为策略网络的输入。为了将策略网络的输出解码为过滤器索引,我们为DNN受害者模型中的每一层构建一个具有线性层的解码器,其输出维数等于相应DNN层中的输出通道数。

4.3. 效果评估

为了找到添加到预训练模型中的最优变化,我们利用设计的基于rl的控制器在卷积层和全连接层中选择滤波器。这里,为了简单起见,我们也将全连接层的每个输出通道称为过滤器。NNSplitter法、基线法和随机法的结果见表3。根据表1中对DNN模型保护方案的定义要求,我们从有效性、效率和完整性三个角度评估NNSplitter的性能。

ICML2023:NNSplitter:一种基于自动权重的DNN模型主动防御方案

有效性 如表3第5列和第6列所示,NNSplitter成功地将受害者模型推理精度降低到随机猜测,使得攻击者的努力无效。具体而言,对于Fashion-MNIST和CIFAR-10等10类数据集,所有受害者模型的混淆top-1准确率低于11%,而对于包含100类的CIFAR-100,混淆后的受害者模型top-1准确率低于2%。而随机选择权值则会造成模型混淆仅导致有限的精度下降(表3第7列),例如,在Fashion-MNIST上训练的VGG-11模型的精度下降约1%(92.90±0.40% vs. 93.73%)。此外,在所有情况下,混淆权重的数量都低于1k,这足够小,可以存储在TEE中,较小的存储需求可以支持在同一设备上部署更多型号。

效率 考虑到DNN模型的尺寸不断增加,我们的目标是通过修改很小一部分模型权重来实现主动模型保护。具体来说,通过在Fashion-MNIST上混淆VGG-11模型的0.001%权重,模型变得完全故障,即推理精度等于随机猜测。此外,对于像CIFAR-100这样更复杂的数据集,权重混淆的比例仍然很小,例如VGG-11的权重混淆率为0.008%。请注意,我们提出的设计可以通过调整掩模超参数c和λ来进一步降低这一比例。然而,为了公平的比较,我们遵循所有受害者模型的通用策略来确定这些参数,如第4.2节所述。

此外,图3表明,当期望的精度退化较小时,所需的权重变化较少。例如,在300个模糊权重和301个模型秘密(包括300个索引和c的值)的情况下,NNSplitter在Fashion-MNIST上对VGG-11模型的准确率下降到10.23%。此外,当混淆权重的数量减少到150时,仍然可以观察到明显的准确性下降。相比之下,随机混淆300个权值,准确率仅下降到92.49%,而秘密数几乎增加了一倍,即600个,这是由于混淆权值的原始值并不接近,无法用单个值代替。

ICML2023:NNSplitter:一种基于自动权重的DNN模型主动防御方案

完整性 确保合法用户的正常模型推断对于主动模型保护方法至关重要,因此,我们的方法应该安全地消除对授权使用的混淆权重的不利影响。具体来说,通过访问存储在TEE中的模型秘密,可以根据存储的索引定位混淆的权重。由于我们提出的方法在[c−ϵ,c +ϵ]中仔细选择了一个非常小的ϵ(见表2),我们可以在计算过程中用混淆的权重替换常数c,从而保持基线精度,如表3第8列所示。

4.4. 消融实验

我们进行了消融研究,以验证基于rl的控制器的有效性。通过将4.1节中定义的Base-NNSplitter应用于相同的受害者模型,我们可以测量导致相同精度下降所需的混淆权重的数量,BaseNNSplitter与NNSplitter的增量比如表4所示。在最坏情况下,增量可达125%,证明了该控制器在优化滤波器选择方面的有效性。总之,我们开发的基于rl的控制器以更少的混淆权重实现了急剧的精度下降。

ICML2023:NNSplitter:一种基于自动权重的DNN模型主动防御方案

5. 讨论

除了有效性之外,NNSplitter还考虑了潜在的攻击面,即攻击者是否能够识别混淆的权重并减轻其不利影响,或者通过进一步攻击提高混淆模型的准确性,例如使用有限的训练数据对模型进行微调。因此,我们按照表1中定义的要求来评估NNSplitter的隐身性和弹性。此外,我们对直接混淆策略和我们的方法进行了比较,以突出NNSplitter在缓解潜在强攻击方面的优势,如第5.2节所示。

5.1. 隐匿性

如第2.4节所述,以前通过操纵权重来实现精度下降的工作分为两类:基于幅度的和基于梯度排名的。然而,与前一类相比,NNSplitter将混淆权值限制在原权值范围内,从而避免了容易被识别。对于后一类,攻击者可以通过检查权重梯度来潜在地定位被混淆的权重,从而允许他们通过权重重建来改善降级的准确性。然而,NNSplitter通过使用优化方法而不是贪婪方法来减轻这种威胁。这使得攻击者更难以对混淆的权重进行反向工程,并根据现有知识提高准确性,从而确保高水平的隐身性。

5.2. 针对潜在攻击面的弹性

根据第2节中的威胁模型,我们假设有一个强大的攻击者,他努力使用SOTA技术提高混淆模型的准确性,如范数裁剪和微调。

对抗Norm Clipping 范数裁剪旨在通过限制特征向量的范数来防御通用的对抗性补丁。在我们的例子中,由于准确性下降是由一些权重的大小变化引起的(从小到大),攻击者可能会对权重采取规范裁剪,并试图裁剪混淆的权重,消除其不利影响。具体来说,区间外的权重值将被裁剪到区间边缘,其中区间由

ICML2023:NNSplitter:一种基于自动权重的DNN模型主动防御方案

t是一个在[0,1]范围内的系数。

我们进行了实验来评估范数裁剪作为攻击NNSplitter的有效性。如图4所示,结果表明,随着裁剪阈值的降低,由于被裁剪的混淆权值更多,混淆模型的精度最初会提高。然而,在达到某一点后,由于正常权重也被剪裁,精度开始下降。值得注意的是,攻击者达到的最高准确率仍然低于50%,这表明NNSplitter对规范剪切攻击的弹性。

ICML2023:NNSplitter:一种基于自动权重的DNN模型主动防御方案

对抗微调 假设更强的攻击者意识到各层的权重混淆(如图2所示),他们可能会尝试使用有限的数据通过微调被混淆的模型来重建权重。评估NNSplitter的弹性针对微调攻击,我们考虑攻击者可用的不同大小的数据集,范围从受害者模型使用的训练数据的1%到10%。如图5所示,一般情况下,精度会随着用于微调的数据集比例的增加而提高。然而,由于每次试验的数据集是随机抽样的,因此一些数据可能比其他数据对模型微调的贡献更大,这就解释了图5中的波动。

ICML2023:NNSplitter:一种基于自动权重的DNN模型主动防御方案

此外,我们的研究表明,与将权重变化集中在单层中相比,将权重变化分布在多层中可以更有效地防止微调攻击。这一发现突出了我们的掩模设计的好处(ii),如第3.1节所述。具体而言,在模型秘密数量固定的情况下,我们分别在三个数据集上仅对VGG-11模型的第一层或最后一层添加权重变化,并使用10%的训练数据对混淆模型进行微调。如图6所示,仅对最后一层进行模糊处理会导致精度略有下降(< 2%),通过微调攻击可以恢复到接近基线精度的水平。虽然从防御的角度来看,混淆第一层会使NNSplitter的准确率急剧下降,但它的防御效果对微调攻击根本没有弹性。总之,我们提出的NNSplitter在表1的预期设计要求中优于这些策略。

ICML2023:NNSplitter:一种基于自动权重的DNN模型主动防御方案

5.3. 模糊策略

我们在CIFAR-10上使用VGG-11进行了实验,比较了修改归一化层的尺度和偏置参数的直接混淆方法与NNSplitter。结果如表5所示。将归一化层的scale参数模糊为1,bias参数模糊为0,导致5504个参数发生改变,模型的模糊精度显著下降至13.77%。这证明了直接混淆技术在降低模型性能方面的有效性。

ICML2023:NNSplitter:一种基于自动权重的DNN模型主动防御方案

然而,我们观察到这种混淆模型在提供针对微调攻击的长期保护方面效果较差。特别是,当攻击者只访问10%的训练数据集并进行微调时,他们能够将准确率恢复到59.15%。相比之下,我们提出的NNSplitter实现了更大的准确性下降,即比混淆归一化统计数据低10.4%,同时混淆更少的权重(876 vs 5504),这一发现证明了我们提出的防御方法的有效性。

此外,该实验比较验证了我们的直觉,即与重建归一化统计量相比,重建卷积权重对攻击者更具挑战性,这是我们设计复杂的权重混淆策略作为模型保护方法的一部分的动机。

6. 结论

我们提出了一种新颖的模型IP保护方案NNSplitter,通过为合法用户保留模型功能来主动保护DNN模型。通过利用TEE的支持,NNSplitter自动将受害模型拆分为两个组件:存储在正常世界中的混淆模型和安全地存储在安全世界中的模型秘密。通过大量的实验,我们证明了NNSplitter在实现有效的模型保护方面的有效性,例如,通过修改约0.001%的权重(28.14M中的313),受害者模型只输出随机预测,使其对模型攻击者无用。相反,合法用户可以通过利用受保护的模型秘密成功地执行授权的推断。此外,我们在NNSplitter的设计中解决了隐身性和抵御潜在攻击的弹性的重要方面。这确保了攻击者无法识别我们的混淆技术,也无法通过合理的努力来提高降低的准确性。通过满足这些关键的设计要求,NNSplitter成为在现实场景中保护DNN模型的有前途的解决方案。它能够维护模型的完整性和功能,同时防止攻击者未经授权使用,这对于希望保护其宝贵知识产权的模型所有者来说是一个很有吸引力的选择。