基于风格的数据集水印算法.pdf
《基于风格的数据集水印算法.pdf》由会员分享,可在线阅读,更多相关《基于风格的数据集水印算法.pdf(11页珍藏版)》请在咨信网上搜索。
1、基于风格的数据集水印算法盛钡娜,潘旭东,张谧(复旦大学计算机科学技术学院,上海200438)通信作者:盛钡娜,E-mail:摘要:开源数据集加速了深度学习的发展,但存在许多不合理使用数据集的现象.为保护数据集的知识产权,近期工作提出数据集水印算法,在数据集发布前预先植入水印,当模型在此数据集上训练时该水印会被附着在模型中,之后通过验证可疑模型是否存在水印来追溯数据集的非法使用.但已有数据集水印算法无法在小扰动下提供有效并且隐蔽的黑盒水印验证.为解决这一问题,本文首次提出利用独立于图像内容与标签的风格属性来植入水印,并限制对原数据集的扰动不涉及标签的修改.通过不引入图像内容与标签的不一致性和额外
2、的代理模型保证水印隐蔽性和有效性.在水印验证阶段仅使用可疑模型的预测结果通过假设检验给出判断.本文在 CIFAR-10 数据集上与现有 5 种方法相比较,实验结果验证了本文提出的基于风格的数据集水印算法的有效性与功能不变性.此外,本文开展的消融实验验证了本文所提的风格优化模块的必要性,算法在不同超参设定以及不同数据集下的有效性.关键词:数据集水印;数据集知识产权保护;图像风格;风格迁移;假设检验引用格式:盛钡娜,潘旭东,张谧.基于风格的数据集水印算法.计算机系统应用,2023,32(8):140150.http:/www.c-s- Dataset Watermarking AlgorithmS
3、HENGBei-Na,PANXu-Dong,ZHANGMi(SchoolofComputerScience,FudanUniversity,Shanghai200438,China)Abstract:Open-sourceddatasetsacceleratethedevelopmentofdeeplearning,whileunauthorizeddatausagefrequentlyhappens.Toprotectthedatasetcopyright,thisstudyproposesthedatasetwatermarkingalgorithm.Thewatermarkisembed
4、dedintothedatasetbeforeitisreleased.Whenthemodelistrainedonthisdataset,thewatermarkisattachedtothemodel,whichallowsillegaldatasetusagetobetracedbyverifyingwhetherthewatermarkexistsinasuspectmodel.However,existingdatasetwatermarkingalgorithmscannotprovideeffectiveandcovertblack-boxverificationundersm
5、allperturbations.Giventhisproblem,themethodofembeddingthewatermarkbyastyleattributeindependentoftheimagecontentandlabelisproposedforthefirsttimeinthisstudy,andtheperturbationontheoriginaldatasetisconstrainedtoavoidthemodificationoflabels.Thecovertnessandvalidityofthewatermarkareensuredwithoutintrodu
6、cingtheinconsistencybetweentheimagecontentandlabelorextrasurrogatemodel.Inthewatermarkverificationstage,onlythepredictionresultsofthesuspectedmodelareappliedtogivethejudgmentviaahypothesistest.TheproposedmethodiscomparedwiththeexistingfivemethodsontheCIFAR-10dataset.Theexperimentalresultsvalidatethe
7、effectivenessandfidelityoftheproposedalgorithm.Besides,theablationexperimentsconductedinthisstudyverifythenecessityoftheproposedstylerefinementmoduleandtheeffectivenessoftheproposedalgorithmundervarioushyper-parametersettingsanddatasets.Key words:datasetwatermarking;datasetcopyrightprotection;images
8、tyle;styletransfer;hypothesistest计算机系统应用ISSN1003-3254,CODENCSAOBNE-mail:ComputerSystems&Applications,2023,32(8):140150doi:10.15888/ki.csa.009207http:/www.c-s-中国科学院软件研究所版权所有.Tel:+86-10-62661041收稿时间:2023-01-07;修改时间:2023-03-01,2023-03-14;采用时间:2023-03-23;csa 在线出版时间:2023-05-22CNKI 网络首发时间:2023-05-24140软件技
9、术算法SoftwareTechniqueAlgorithm高质量的数据集是深度学习蓬勃发展与广泛应用的基本前提13,例如,ImageNet 数据集2及其 ILSVRC挑战赛孕育了许多经典且至今仍被广泛使用的模型结构,如 ResNet3,VGG4和 SENet5等模型结构.受开源精神影响,很多公司与研究机构会公开发布所收集整理的数据集来加速学术研究进程.但这类开源数据集通常不希望被用于未授权的商业用途中1,2,68,因此,需要一种针对数据集的知识产权保护方案,以验证商业模型是否存在在无授权数据集上训练的行为,进而保护数据集所有者的合法权益.数据集水印(datasetwatermarking)这一
10、机制应运而生911.通常数据集水印方案包含两部分:数据集水印植入模块与数据集水印验证模块.前者是指在数据集发布之前将持有方指定的水印添加到数据集中.不同于模型水印(modelwatermarking)12,13,数据集持有方即水印嵌入者无法控制数据集窃取者会使用何种模型结构,训练超参等信息,因此要求所植入的水印能附着于任意在此数据集上训练所得到的模型中.后者则是指给定可疑模型白盒或黑盒访问权限,通过验证模型是否含有水印来判断该模型是否存在数据集的无授权使用行为.在现有文献中,仅有少数工作关注到数据集水印任务并提出相应的解决方案,但这些工作都存在各式问题.Li 等人9利用传统后门攻击14对数据集
11、植入后门,之后通过检测模型是否存在后门来进行验证.但水印植入过程涉及对原数据集标签的修改,使得样本语义内容与其标签不一致,进而缺乏隐蔽性.Sablayrolles等人10则是关注白盒验证场景,在模型参数中植入水印.这要求验证方拥有对可疑模型的白盒访问权限,但目前大多商业模型提供的预测 API 接口仅返回模型预测标签或者各类置信度,因此白盒验证假设是不切实际的.近期,Li 等人11针对上述两个问题提出了满足干净标签限制且能支持黑盒验证的 UBW-C 算法,其中干净标签限制指水印嵌入中不扰动原数据标签,保证数据语义内容与标签的一致性.但这一算法在植入水印时需要引入代理模型,使得其在不同模型结构下的
12、水印效果欠佳,尤其是限制植入水印能对训练集的可扰动比率较小时.本文工作探索图像风格特征,一个独立于图像语义内容与标签的特征,来设计在干净标签和扰动比例较小限制下仍有效的且可以支持黑盒验证的数据集水印算法.具体地,本文利用风格迁移模型15,16对目标类的少部分样本嵌入特定风格,之后通过验证模型是否能将含有该指定风格的其他类图像分类为目标类别来判断模型是否在含水印数据集上训练获得.此外,为了使植入的水印更加隐蔽,在水印植入阶段设计了风格优化模块,对原本随机选取的风格在特定风格迁移模型和目标类别上优化,使得在目标类中额外嵌入的水印更加隐蔽.本文首先在 CIFAR-10 数据集上对提出方法进行实验评估
13、,与现有 3 个数据集水印工作和复用的两个干净标签下的数据投毒攻击工作相比,本文提出的数据集水印算法有效性最佳.其次,本文开展了消融实验验证了算法的风格优化模块的必要性,分析不同风格强度和扰动比例对算法性能的影响,另外在CIFAR-100 和 ImageNet 子集上的实验结果表明算法可应用于更复杂的数据集上.总体而言,与之前的数据集水印算法相比本文主要有以下两方面优势.(1)本文在干净标签与黑盒验证限制下,提出了基于风格的数据集水印算法.在同样的较小扰动比例下,实验表明本文所提的算法在更严格的限制下有更强的有效性与相当的功能不变性.(2)本文提出的基于风格的数据集水印算法在水印植入与验证阶段
14、都不依赖于具体模型,使得算法在验证不同结构的可疑模型时更可靠.本文组织如下:第 1 节介绍数据集水印任务的相关工作;第 2 节给出数据集水印的形式化定义与要求;第 3 节介绍基于风格的数据集水印算法;第 4 节介绍实验设置以及实验结果;第 5 节进行总结与展望.1相关工作 1.1 模型水印数字水印(digitalwatermarking)研究如何在图像,视频,语音等数字信号中添加水印信息以期声明其所有权1719.受数字水印启发,研究者提出模型水印概念来保护深度神经网络模型的知识产权.近期工作设计了不同的水印信息,例如随机的 0-1 比特串13,2023,随机样本集合12,24,25等,并将这类
15、水印信息嵌入到模型的特定层参数2022,特定层激活值的概率密度函数13,23又或者模型对于预先选定输入样本集合的预测结果12,24,25中.然而模型水印任务的目标是保护一个特定的深度神经网络模型,而非本文所关注的整个数2023年第32卷第8期http:/www.c-s-计 算 机 系 统 应 用SoftwareTechniqueAlgorithm软件技术算法141据集,因此仍然需要数据集水印工作单独地对数据集的知识产权进行保护.1.2 数据集水印不同于模型水印,仅有少数工作关注深度学习数据集的知识产权保护.文献 2628 利用模型对于参与训练样本和非训练集样本的预测行为之间的差异做数据集推断(
16、datasetinference),判断可疑模型是否在私有数据集上训练.但这类工作不预先对数据集做任何改动,而本文主要关注在数据集发布前预先植入水印的数据集水印任务.Li 等人9首次提出数据集水印的概念,并设计了 BEDW 算法.BEDW 使用后门攻击14对数据集投毒植入后门,后续在验证阶段依据可疑模型是否存在后门来判断模型是否在水印数据集上训练获得.但 BEDW 在水印植入阶段不仅需要扰动原数据集的图像内容还需要修改对应标签,引入了样本语义内容与标签的不一致性,导致数据集水印缺乏隐蔽性,容易被检测过滤29.Sablayrolles 等人10提出放射性数据集(radioactivedata),
17、通过对训练集样本添加指定方向扰动向模型分类层参数植入水印,但在水印验证阶段要求验证方拥有可疑模型的白盒访问权限,即能直接获取可疑模型具体参数等信息,而当前商业化模型所提供的预测 API 接口大多只返回模型预测类别或者各类别预测置信度.因此,验证方拥有可疑模型的白盒访问权限假设过强,不符实际情况.Li 等人11提出可支持黑盒验证 UBW 算法,其中为提高水印隐蔽性,进一步设计了 UBW-C 干净标签版本,在水印植入过程中不扰动原样本的标签信息.但 UBW-C 算法需要引入代理模型生成扰动,导致 UBW-C 添加的水印在使用了不同模型结构的可疑模型中效果相对较差.本文在此基础上提出在干净标签和扰动
18、比例较小限制下仍有效的且可以支持黑盒验证的数据集水印算法.1.3 数据投毒攻击数据投毒攻击(datapoisoningattacks),包括后门攻击(backdoorattacks),是期望通过扰动训练数据集以使在此数据集上训练得到的模型在推理应用阶段有特殊预测行为,例如模型将指定样本分类出错30或分类为特定类别14.近期,研究者提出复用数据投毒攻击于防御用途9,12.同时,为提高数据投毒攻击的隐蔽性,研究者提出在干净标签限制下或使用特征碰撞3034设计攻击算法或将问题形式化为双层优化问题,通过部分展开35,梯度匹配36,37,一阶梯度近似38等方式求解.本文受此启发在数据集水印任务上提出满足
19、干净标签限制的,更为隐秘的水印算法.但正如 Schwarzschild 等人39所述,当前的干净标签后门攻击工作在脱离对受害者模型(victimmodel)的假设后并不能达到理想的攻击效果,因此本文不考虑直接复用当前已有的干净标签下的数据投毒攻击工作,而是创新性地提出基于风格特征的数据集水印算法.2数据集水印PX,YDori=(xi,yi)Ni=1xiX Rdyi Y=0,L1 NDoriDwm同已有数据集水印工作911一样,本文也先关注图像分类数据集的知识产权保护,对其他领域的数据集水印扩展留待之后的工作探索.考虑从联合分布中采样得到的分类数据集,其中,为样本数量.数据集水印算法是预先在原数
20、据集中植入水印得到嵌入水印后的数据集.之后,当有可疑模型出现时,算法需提供可以判断该模型是否在嵌入水印后的数据集上训练的能力.形式化地,数据集水印算法主要包含以下两个模块:Dwm,mv Embed(Dori,m)DorimDwmmv(1)水印嵌入:嵌入算法,即给定原数据集和数据集持有方独有的隐秘信息,输出嵌入水印后的数据集和之后用于验证的信息.bv Verify(F,mv)Fmvbv 0,1(2)水印验证:验证算法,即给定一个可疑模型和验证信息,输出表示模型是否含有水印.F Train(D,A)FADDwmF+F+Train(Dwm,A)F方便起见,记表示模型的训练算法涉及数据集.则给定含水印
21、数据集,本文称为正例模型当且仅当,即其训练过程使用了水印数据,否则该模型被称作负例模型,记为.数据集水印方案要求满足以下两点.ADwm,mv Embed(Dori,m)(1)有效性(effectiveness):能准确检测出正例与负例模型,形式化地,对任意和植入的水印与验证信息有:PrF+Train(Dwm,A)Verify(F+,mv)=1=1(1)PrFTrain(Dori,A)Verify(F,mv)=0=1(2)(2)功能不变性(fidelity):使用相同结构和训练方计 算 机 系 统 应 用http:/www.c-s-2023年第32卷第8期142软件技术算法SoftwareTec
22、hniqueAlgorithmF+Train(Dwm,A)F Train(Dori,A)式的正例与负例模型性能应当相似,形式化地,对任意,有:Pr(x,y)DtestF+(x)=y Pr(x,y)DtestF(x)=y(3)DtestPX,Y其中,为从中采样的干净测试样本集合.3基于风格的数据集水印算法正如第 2 节中给出的关于数据集水印基本定义,本文提出的基于风格的数据集水印算法主要包括数据集水印嵌入和数据集水印验证两个模块.3.1 数据集水印嵌入Embed(Dori,m)mxs XGyt Y如图 1 左半部分所示,本文将中的水印信息 设计为一个数据集持有方指定的风格图像,特定的风格迁移模型
23、 以及目标类别.值得注意的是,上述 3 类信息的选取是不公开的,由数据集持有方自定义不对外公布.目标类 ytAutomobilexc内容图像Gc1c2cMxc.xv风格图像xs风格迁移模型用于验证的风格化图像黑盒可疑模型预测标签假设检验H0 vs.H1数据集水印嵌入1数据集水印验证2用于水印嵌入的风格化图像oriwm图 1基于风格的数据集水印算法示意图n=rpNytXc=xcini=1rpNytxcixsGxcixsxcixcixciDorinXcDwmEmbed(Dori,m)mvMxviMi=1xviMi=1mv(xvi,yt)Mi=1为了能在满足干净标签限制下嵌入水印,本文提出在独立于图
24、像语义内容与标签的特征,即图像风格维度中嵌入水印.具体地,先随机从目标类图像中选取张图像作为内容图像,记做,其中为扰动比例,为原数据集目标类样本数量.给定内容图像与风格图像,本文利用风格迁移模型 生成迁移后的具有的内容与的风格的图像.之后,将原数据集中的用风格迁移后图像代替,同时不对标签做任何修改,保持其原有的真实标签不变.如此,替换原数据集中选择的 张图像后即可得到嵌入水印后的数据集.另一方面,在嵌入水印算法中还需生成后续用于验证的信息.具体地,先随机选取张干净测试集中其他类样本作为内容图像,并以同样的方式利用风格迁移模型获取风格化图像.最终,验证信息为.风格优化模块:考虑到风格图像和风格迁
25、移模型的选取是随机的,这可能导致在部分风格图像和模型下嵌入水印相关的图像是相对容易被察觉.为使风格化后的图像变得更不易察觉,一种简单的方法是为每个数据集精心挑选合适的风格图像或对风格迁移模型精心调整超参数.但这样的方式即费时又费力,因此本文提出直接对随机选取的风格图像进行优化.考虑到在图像风格迁移任务中通常使用结构相似性指标(structuresimilarityindex,SSIM)40作为图像语义内容xcixci保留程度的衡量指标,因此本文使用结构相似性指标作为优化目标.具体地,通过优化风格图像来最大化原始图像和风格化后图像之间的 SSIM,即:xs=argminxsExciXcSSIM(
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 风格 数据 集水 算法
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。