基于本地差分隐私的联邦学习隐私保护方法.pdf
《基于本地差分隐私的联邦学习隐私保护方法.pdf》由会员分享,可在线阅读,更多相关《基于本地差分隐私的联邦学习隐私保护方法.pdf(4页珍藏版)》请在咨信网上搜索。
1、2023 年第 8 期160信息技术与信息化网络与信息安全基于本地差分隐私的联邦学习隐私保护方法谢逸超1XIE Yichao 摘要 机器学习的发展给人们带来更多便利的同时,也带来了数据隐私泄露的安全风险。传统的机器学习提供的服务已经不能满足隐私保护的需要。联邦学习作为一种分布式机器学习框架,通过将训练数据保存在本地,使众多参与者能够私下地训练联邦模型。联邦学习正在成为解决数据隐私保护的一种有前途的替代方案。虽然联邦学习技术的出现缓解了隐私泄露的威胁,但当客户端上传模型参数以及服务器聚合参数下发时,对手仍然可以从中获取参数,从而发生泄密的风险。为了保护 FL 中的数据隐私,人们提出了各种隐私保护
2、方法。与需要复杂加密操作的加密方法相比,DP 被认为是一种更好的隐私保护方法。在本地训练或全局聚合过程中,参数会受到干扰,从而使攻击者无法获取真实的参数。在各种差分隐私保护方法中,本地差分隐私保护方法在客户端进行隐私保护过程,无需信任服务器即可实现隐私保护。本文提出了一种新颖的联邦学习本地差分隐私机制设计,并对 MNIST、Fashion-MNIST 和 CIFAR-10 这三个差分隐私工作中常用的数据集进行了实证评估,结果表明,该方法在实现深度学习性能的同时,还提供了强大的隐私保障。关键词 联邦学习;分布式机器学习;本地差分隐私;保护隐私的联邦学习;保护隐私的分布式机器学习doi:10.39
3、69/j.issn.1672-9528.2023.08.0351.福州大学 福建福州 3501080 引言 以服务器为中心的机器学习(machine learning,ML)体系结构无法解决许多行业(跨部门设置)使用的最新技术中的海量数据分布问题,包括医疗保健和智能农业。此外,收集数据从这些行业到一个中央服务器为 ML 引入了许多隐私问题。联邦学习(federated learning,FL)是最近开发的一种分布式机器学习方法,它为隐私保护 ML 提供了有效的解决方案。FL 允许客户端(参与者)收集和处理数据,以训练本地 ML 模型。然后,客户机只需要与中央服务器共享本地训练的 ML 模型的模
4、型参数,用于参数聚合,以生成所有客户机模型的全局表示。最后服务器与所有参与的客户机共享全局模型。通过这种方式,FL 绕过了与 ML 培训过程中涉及的任何其他方共享原始数据的必要性。随着联邦学习概念的普及,关于联邦学习的应用也逐步发展起来了,而在这些应用中隐私通常是一个主要的关注点。在联邦学习场景中,用户无需共享本地数据而只是上传训练好的模型信息,实现了对私有数据的隐私保护。然而,以模型信息作为交互介质,在学习过程中可能仍然存在数据隐私的泄露。已有的联邦学习工作表明,在一定条件下1,当分布式用户的模型参数与模型结构一块上传的时候,可能仍然会泄露隐私信息,这被称为间接信息泄漏:根据每个客户端上载的
5、模型参数,可以推断出本地客户端拥有的原始数据信息。更可怕的是,当攻击者直接拦截每个客户端上传的模型参数时,他可进一步窃取受害方的隐私信息。在多家医疗机构联合训练疾病检测系统的医疗应用场景中,这种间接信息的泄露将严重危害各方医疗机构中病人数据的隐私。已经开发了加密场景和噪声添加(随机化)机制,以减轻与 FL 相关的隐私泄漏2。FL 最常测试的两种加密方法是安全多方计算3和同态加密4。然而,加密方法由于计算和通信成本高,往往会大大降低 FL 性能。大多数加密方法都假设在 FL 过程的特定点上进行半诚实(诚实但奇怪)的计算,然而,好奇的是要尽可能多地了解信息,这就需要隐私保护。在噪声添加方法中,差分
6、隐私方法因其健壮的隐私保障和高效率而更受青睐。在中心差分隐私(center differential privacy,CDP)中,可信管理员应用校准噪声,而在本地差分隐私(local differential privacy,LDP)中,数据所有者在将数据发布给任何第三方之前会对其数据进行扰动。因此,LDP提供了更高级别的隐私,因为它比 GDP 施加了更多的噪音。大多数现有的 FL 方法是基于 GDP5。然而,对可信方的要求使得 GDP 方法不太实用,而 LDP 方法提供了一种更实用 2023 年第 8 期161信息技术与信息化网络与信息安全的方式来处理 FL 中的分布式客户端。针对模型训练中
7、的隐私安全问题,可以把差分隐私技术引入新型的联邦学习框架,并且从数据角度考虑,使用本地差分隐私机制来扰动更新的参数,以确保模型信息不会泄露,从而保护整个模型的安全。文中最后探讨了差分隐私机制、隐私预算水平以及不同的差分隐私机制对精度的影响。1 相关概念1.1 联邦学习联邦学习的概念最早是 2016 年由谷歌团队 Mcmahan 等人6提出的,他们的主要目标是在不接触多个设备中的原始数据的情况下,基于保留在设备上数据计算的结果,构建一个强大的共享模型。自 2018 年 8 月开始,联邦学习在国内迅速发展。联邦学习体现了集中收集和数据最小化的原则,可以减轻许多由传统的集中机器学习产生的系统性隐私风
8、险和成本。FL 涉及 N 个分布式方(连接到一个中央服务器),同意训练具有相同配置的局部深度神经网络模型。该过程开始于中央服务器随机初始化模型参数 M0,并将它们分发给客户机以初始化它们的模型副本。客户端使用本地存储库中的数据单独训练本地模型,并与服务器共享更新后的模型参数 Mu。服务器使用联邦平均等聚合协议将从所有客户端接收到的模型参数进行聚合,生成联合模型(Mfed)。公式(1)为联邦平均(计算参数矩阵各索引值的平均值)生成(Mfed)的过程,其中 Mu,i表示第 i 个客户端发送的更新的模型参数,这作为一个联邦回合。FL 进行多个联邦回合,直到(Mfed)收敛或达到预定义的轮数。结果表明
9、,(Mfed)产生的精度几乎接近于使用相同数据7进行集中训练的模型。(1)1.2 本地差分隐私防止信息泄露的一种自然方法是添加人工噪声,称为差分隐私技术(differential privacy,DP)。考虑到差分隐私在深度学习模型中的广泛适用性,差分隐私也可以很好地用于联邦学习中的隐私保护,为了加强隐私保护,DP 被应用到联邦学习中8。传统的差分隐私是将原始数据集中到一个数据中心,然后在此对数据加入差分隐私算法,并对外发布,称之为 GDP。因此,中心化差分隐私有一个前提:可信的第三方数据收集者,即保证所收集的数据不会被窃取和泄露。然而,在实际生活中想找到一个真正可信的第三方数据收集平台十分困
10、难,这极大地限制了中心化差分隐私的应用。鉴此,LDP 应运而生,基于不可信第三方的前提下,其将数据隐私化的工作转移到每个用户,用户自己来处理和保护个人数据,极大地降低了隐私泄露的可能性。假设存在具有相同维度和属性的数据集 D 和 D,这两个数据集最多只相差一条记录,那么 D 和 D 称为相邻数据集。即 LDP 的定义:9。对于任意两个相邻的数据集 D 和 D,如果存在随机化算法 M,如果算法 M 的任意输出 S 满足:(2)那么该算法 M 被称为满足(,)-DP,其中(,)代表保证 DP 的隐私预算,隐私损失 控制了算法的隐私和效用之间的权衡。而 是-DP 可能失败的概率。如果=0,即算法 M
11、 是-差分隐私。参数 被认为是隐私预算。较低的 意味着更多的噪音和更强大的隐私保护。而较高的 则意味着较少的噪音和较弱的隐私保护。当 为零时,就达到了最高的保护水平。本地差分隐私是一种设置,在数据管理员访问输入数据之前,数据所有者对输入数据应用随机化(或噪声)。LDP提供了比 GDP 更好的隐私概念,因为增加了噪音水平和不需要一个值得信任的管理者。LDP 被认为是保护隐私的数据收集和分发的最新方法。本地化差分隐私数据处理框架,如图1 所示。图 1 本地差分隐私数据处理框架在一个联邦学习系统中,在每个迭代中,从节点向主节点发送一次他们的本地信息。因此,这样可以使用本地随机器来扰乱每个从节点发送的
12、本地信息。在分布式学习的背景下,可以通过分析每轮通信的隐私预算(,),以此确保隐私。在选择 DP 的噪声机制时,主要考虑以下两种机制。本研究中考虑了以下两种机制。高斯机制10:保留了(,)-DP,其中 N 表示高斯分布,噪声的振幅定义为,其中常数,。在这个结果中,n 是数据集中数据的加性噪声样本的值,和 p 是由给出的函数 p 的灵敏度。2023 年第 8 期162信息技术与信息化网络与信息安全拉普拉斯机制11:拉普拉斯分布的尺度参数 b=p/可以定义为:(3)在 FL-LDP 的评估中,通过用户特征来实现了这两种方法,并进行了安全性分析。2 实验 2.1 实验设置本文在 pytorch1.8
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 本地 隐私 联邦 学习 保护 方法
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。