基于本地差分隐私的联邦学习隐私保护方法.pdf

上传人：自信****多点

文档编号：2112221

上传时间：2024-05-16

格式：PDF

页数：4

大小：1.47MB

《基于本地差分隐私的联邦学习隐私保护方法.pdf》由会员分享，可在线阅读，更多相关《基于本地差分隐私的联邦学习隐私保护方法.pdf（4页珍藏版）》请在咨信网上搜索。

1、2023 年第 8 期160信息技术与信息化网络与信息安全基于本地差分隐私的联邦学习隐私保护方法谢逸超1XIE Yichao 摘要机器学习的发展给人们带来更多便利的同时，也带来了数据隐私泄露的安全风险。传统的机器学习提供的服务已经不能满足隐私保护的需要。联邦学习作为一种分布式机器学习框架，通过将训练数据保存在本地，使众多参与者能够私下地训练联邦模型。联邦学习正在成为解决数据隐私保护的一种有前途的替代方案。虽然联邦学习技术的出现缓解了隐私泄露的威胁，但当客户端上传模型参数以及服务器聚合参数下发时，对手仍然可以从中获取参数，从而发生泄密的风险。为了保护 FL 中的数据隐私，人们提出了各种隐私保护

2、方法。与需要复杂加密操作的加密方法相比，DP 被认为是一种更好的隐私保护方法。在本地训练或全局聚合过程中，参数会受到干扰，从而使攻击者无法获取真实的参数。在各种差分隐私保护方法中，本地差分隐私保护方法在客户端进行隐私保护过程，无需信任服务器即可实现隐私保护。本文提出了一种新颖的联邦学习本地差分隐私机制设计，并对 MNIST、Fashion-MNIST 和 CIFAR-10 这三个差分隐私工作中常用的数据集进行了实证评估，结果表明，该方法在实现深度学习性能的同时，还提供了强大的隐私保障。关键词联邦学习；分布式机器学习；本地差分隐私；保护隐私的联邦学习；保护隐私的分布式机器学习doi：10.39

3、69/j.issn.1672-9528.2023.08.0351.福州大学福建福州 3501080 引言以服务器为中心的机器学习(machine learning，ML)体系结构无法解决许多行业(跨部门设置)使用的最新技术中的海量数据分布问题，包括医疗保健和智能农业。此外,收集数据从这些行业到一个中央服务器为 ML 引入了许多隐私问题。联邦学习(federated learning，FL)是最近开发的一种分布式机器学习方法，它为隐私保护 ML 提供了有效的解决方案。FL 允许客户端(参与者)收集和处理数据，以训练本地 ML 模型。然后，客户机只需要与中央服务器共享本地训练的 ML 模型的模

4、型参数，用于参数聚合，以生成所有客户机模型的全局表示。最后服务器与所有参与的客户机共享全局模型。通过这种方式，FL 绕过了与 ML 培训过程中涉及的任何其他方共享原始数据的必要性。随着联邦学习概念的普及，关于联邦学习的应用也逐步发展起来了，而在这些应用中隐私通常是一个主要的关注点。在联邦学习场景中，用户无需共享本地数据而只是上传训练好的模型信息，实现了对私有数据的隐私保护。然而，以模型信息作为交互介质，在学习过程中可能仍然存在数据隐私的泄露。已有的联邦学习工作表明，在一定条件下1，当分布式用户的模型参数与模型结构一块上传的时候，可能仍然会泄露隐私信息，这被称为间接信息泄漏：根据每个客户端上载的

5、模型参数，可以推断出本地客户端拥有的原始数据信息。更可怕的是，当攻击者直接拦截每个客户端上传的模型参数时，他可进一步窃取受害方的隐私信息。在多家医疗机构联合训练疾病检测系统的医疗应用场景中，这种间接信息的泄露将严重危害各方医疗机构中病人数据的隐私。已经开发了加密场景和噪声添加(随机化)机制，以减轻与 FL 相关的隐私泄漏2。FL 最常测试的两种加密方法是安全多方计算3和同态加密4。然而，加密方法由于计算和通信成本高，往往会大大降低 FL 性能。大多数加密方法都假设在 FL 过程的特定点上进行半诚实(诚实但奇怪)的计算，然而，好奇的是要尽可能多地了解信息，这就需要隐私保护。在噪声添加方法中，差分

6、隐私方法因其健壮的隐私保障和高效率而更受青睐。在中心差分隐私(center differential privacy，CDP)中，可信管理员应用校准噪声，而在本地差分隐私(local differential privacy，LDP)中，数据所有者在将数据发布给任何第三方之前会对其数据进行扰动。因此，LDP提供了更高级别的隐私，因为它比 GDP 施加了更多的噪音。大多数现有的 FL 方法是基于 GDP5。然而，对可信方的要求使得 GDP 方法不太实用，而 LDP 方法提供了一种更实用 2023 年第 8 期161信息技术与信息化网络与信息安全的方式来处理 FL 中的分布式客户端。针对模型训练中

7、的隐私安全问题，可以把差分隐私技术引入新型的联邦学习框架，并且从数据角度考虑，使用本地差分隐私机制来扰动更新的参数，以确保模型信息不会泄露，从而保护整个模型的安全。文中最后探讨了差分隐私机制、隐私预算水平以及不同的差分隐私机制对精度的影响。1 相关概念1.1 联邦学习联邦学习的概念最早是 2016 年由谷歌团队 Mcmahan 等人6提出的，他们的主要目标是在不接触多个设备中的原始数据的情况下，基于保留在设备上数据计算的结果，构建一个强大的共享模型。自 2018 年 8 月开始，联邦学习在国内迅速发展。联邦学习体现了集中收集和数据最小化的原则，可以减轻许多由传统的集中机器学习产生的系统性隐私风

8、险和成本。FL 涉及 N 个分布式方(连接到一个中央服务器)，同意训练具有相同配置的局部深度神经网络模型。该过程开始于中央服务器随机初始化模型参数 M0，并将它们分发给客户机以初始化它们的模型副本。客户端使用本地存储库中的数据单独训练本地模型，并与服务器共享更新后的模型参数 Mu。服务器使用联邦平均等聚合协议将从所有客户端接收到的模型参数进行聚合，生成联合模型(Mfed)。公式（1）为联邦平均(计算参数矩阵各索引值的平均值)生成(Mfed)的过程，其中 Mu,i表示第 i 个客户端发送的更新的模型参数，这作为一个联邦回合。FL 进行多个联邦回合，直到(Mfed)收敛或达到预定义的轮数。结果表明

9、，(Mfed)产生的精度几乎接近于使用相同数据7进行集中训练的模型。（1）1.2 本地差分隐私防止信息泄露的一种自然方法是添加人工噪声，称为差分隐私技术(differential privacy，DP)。考虑到差分隐私在深度学习模型中的广泛适用性，差分隐私也可以很好地用于联邦学习中的隐私保护，为了加强隐私保护，DP 被应用到联邦学习中8。传统的差分隐私是将原始数据集中到一个数据中心，然后在此对数据加入差分隐私算法，并对外发布，称之为 GDP。因此，中心化差分隐私有一个前提：可信的第三方数据收集者，即保证所收集的数据不会被窃取和泄露。然而，在实际生活中想找到一个真正可信的第三方数据收集平台十分困

10、难，这极大地限制了中心化差分隐私的应用。鉴此，LDP 应运而生，基于不可信第三方的前提下，其将数据隐私化的工作转移到每个用户，用户自己来处理和保护个人数据，极大地降低了隐私泄露的可能性。假设存在具有相同维度和属性的数据集 D 和 D，这两个数据集最多只相差一条记录，那么 D 和 D 称为相邻数据集。即 LDP 的定义：9。对于任意两个相邻的数据集 D 和 D，如果存在随机化算法 M，如果算法 M 的任意输出 S 满足:（2）那么该算法 M 被称为满足（,）-DP，其中（,）代表保证 DP 的隐私预算，隐私损失控制了算法的隐私和效用之间的权衡。而是-DP 可能失败的概率。如果=0，即算法 M

11、是-差分隐私。参数被认为是隐私预算。较低的意味着更多的噪音和更强大的隐私保护。而较高的则意味着较少的噪音和较弱的隐私保护。当为零时，就达到了最高的保护水平。本地差分隐私是一种设置，在数据管理员访问输入数据之前，数据所有者对输入数据应用随机化(或噪声)。LDP提供了比 GDP 更好的隐私概念，因为增加了噪音水平和不需要一个值得信任的管理者。LDP 被认为是保护隐私的数据收集和分发的最新方法。本地化差分隐私数据处理框架，如图1 所示。图 1 本地差分隐私数据处理框架在一个联邦学习系统中，在每个迭代中，从节点向主节点发送一次他们的本地信息。因此，这样可以使用本地随机器来扰乱每个从节点发送的

12、本地信息。在分布式学习的背景下，可以通过分析每轮通信的隐私预算（,），以此确保隐私。在选择 DP 的噪声机制时，主要考虑以下两种机制。本研究中考虑了以下两种机制。高斯机制10：保留了（,）-DP，其中 N 表示高斯分布，噪声的振幅定义为，其中常数，。在这个结果中，n 是数据集中数据的加性噪声样本的值，和 p 是由给出的函数 p 的灵敏度。2023 年第 8 期162信息技术与信息化网络与信息安全拉普拉斯机制11：拉普拉斯分布的尺度参数 b=p/可以定义为：（3）在 FL-LDP 的评估中，通过用户特征来实现了这两种方法，并进行了安全性分析。2 实验 2.1 实验设置本文在 pytorch1.8

13、进行实验，实验硬件设置见表 1。表 1 隐私保护联邦学习实验硬件配置名称型号备注 CPU Intel Core i7 主频 2.93GHzGPU RTX2060 6G 内存 SAMSUNG 128GB 操作系统 Ubuntu20.04 64 位为了评价 FL-LDP 预测的准确性，在本节中，使用卷积神经网络(convolutional neural networks，CNN)，CNN 对不同数据集来测量 FL-LDP 算法，并且使用深度学习中常用的模型精度作为评价指标，通过控制变量法改变隐私预算水平和差分隐私机制，验证了所提出的 FL-LDP 算法的合理性。之所以选择这些变量，是因为它们

14、在其他联邦学习论文中被广泛使用。2.2 数据集和模型模拟中使用的数据是 MNIST、FashionMnist 和CIFAR-10。这三个数据集由 60 000 个训练样本和 10 000 个测试样本组成，每个样本是一个 28 28 像素的灰度图像。首先将数据集平均分配给 3 个客户端，其次分别在三个数据集上训练一个 CNN 模型，CNN 的网络结构由两个 5*5 卷积层和两个全连接层组成。最后把学习率设置为 0.01，批处理大小设置为 32，最大客户端-服务器通信轮数设置为100。3 性能评估在本节中，通过三个数据集来评估 FL-LDP 方法来评估图像分类时的性能。通过控制变量

15、法来证明 FL-LDP 方法的有效性。实验是基于 Pytorch 实现的。3.1 LDP 机制对精度的影响在实验中，主要部署了一个典型的 FL 场景，其中一个服务器协调 3 个客户端。并且分别在有 LDP 保护和没有 LDP保护来进行实验的对比。首先在没有隐私保护的情况下（即客户端直接将参数发送到服务器）评估模型分类准确率。结果如图 2 所示，在没有 LDP 保护的情况下，分类准确率也保持在 80%左右，具有较强的鲁棒性。图 2 不加 LDP 机制对精度的影响接着，在有隐私保护的情况下评估 FL-LDP 方法，即客户机将其受干扰的参数发送到服务器进行聚合。如图 3 所示，在本地差分隐私保护的情

16、况下，分类准确率保持在70%左右，与没有 LDP 保护的情况相比，都略有下降。但是，该方法仍然保持了较高的分类精度，表现出较好的鲁棒性和隐私保护能力。图 3 LDP 机制对精度的影响3.2 隐私预算对精度的影响在本节中，为了评估隐私预算如何影响模型的分类性能，即 FL-LDP 方法在不同噪声水平下的性能表现，不同LDP 参数对模型准确性有不同的影响，首先看看参数在模型上的影响，这里使用的数据集是 MNIST、FashionMnist 和CIFAR-10。实验结果如图 4 所示，当慢慢变大时，模型的分类精度提高，但当达到一定值的时候，模型的分类精度变化不大，虽然仍在继续增加，这意味着添加的

17、噪声已经非常小，对模型的影响很小。2023 年第 8 期163信息技术与信息化网络与信息安全图 4 隐私预算对精度的影响3.3 基于 LDP 的不同机制对精度的影响为了评估基于 LDP 机制的影响，在 FL-LDP 方法上分别实现了不同下的拉普拉斯机制和高斯机制。如表 2 所示。表 2 基于 LDP 的不同机制对精度的影响参数设置类型精度类型精度=2.0Laplace82.68%Gaussian81.49%=1.5Laplace81.62%Gaussian80.62%=1.0Laplace80.73%Gaussian79.78%=0.8Laplace79.92%Gaussian78.52%当

18、降低的时候，由于数据的安全级别是通过提高噪声规模来增加的，拉普拉斯机制和高斯机制的精度都有下降的趋势。此外，实验结果表明，在 FL-LDP 中部署拉普拉斯噪声类型比高斯噪声类型能获得更好的精度。甚至减小会降低数据的可用性，当小到 0.8 的时候，FL-LDP 仍然可以达到 79.92%的准确率。总而言之，基于 LDP 的方案可以为FL-LDP 实现良好的隐私保护，而不会显著降低性能。4 结束语本文提出了一种基于本地差分隐私的联邦学习方法(简称 FL-LDP)。FL-LDP 使用本地差分隐私(LDP)对 FL 实施严格的隐私保证。在严格的隐私设置(如=2)下，该方法提供了较高的测试精度(如

19、 82.68%)。与现有技术相比，本文方法使模型拥有者利用本地差分隐私保护了真实联邦学习模型的隐私性，且对训练完成的模型参数添加噪声，避免对神经网络训练模型产生干扰，保证了带噪声的联邦学习模型的效用。在相同的图像分类任务上，FL-LDP 的性能优于以前的相关工作。希望本文工作能够大大加快 LDP 在联邦学习中的实际应用。参考文献：1 WEI K,LI J,DING M,et al.Federated learning with differential privacy:algorithms and performance analysisJ.IEEE transactions on infor

20、mation forensics and security,2020,15:3454-3469.2 刘艺璇,陈红,刘宇涵,等.联邦学习中的隐私保护技术J.软件学报,2021,33(3):1057-1092.3 YU S,CUI L.Secure multi-party computation in federated learningM/Security and privacy in federated learning.singapore:Springer Nature Singapore,2022:89-98.4 SHI Z,YANG Z,HASSAN A,et al.A privacy

21、preserving federated learning scheme using homomorphic encryption and secret sharingJ.Telecommunication systems,2023,82(3):419-433.5 YANG M,CHENG H,CHEN F,et al.Model poisoning attack in differential privacy-based federated learningJ.Information sciences,2023,630:158-172.6 MCMAHAN B,MOORE E,RAMAGE D

22、,et al.Communic-ation-effi cient learning of deep networks from decentraliz-ed dataC/Artificial Intelligence and Statistics.PMLR,20-17:1273-1282.7 BARROSO N,LOPEZ D,LUZON M V,et al.Survey on federated learning threats:Concepts,taxonomy on attacks and defences,experimental study and challengesJ.Infor

23、mation fusion,2023,90:148-173.8 JI S,ZHANG J,ZHANG Y,et al.LAFED:A lightweight authentication mechanism for blockchain-enabled federated learning systemJ.Future generation computer systems,2023,145:56-67.9 XIONG X,LIU S,LI D,et al.A comprehensive survey on local differential privacyJ.Security and co

24、mmunication networks,2020,2020:1-29.10ZHANG D,CHEN X,SHI J.An efficient federated convolutional neural network scheme with differential privacyC/Emerging Information Security and Applications:Third International Conference,EISA 2022,Wuhan,China,October 2930,2022,Proceedings.Cham:Springer Nature Switzerland,2023:173-190.11 JI S,ZHANG J,ZHANG Y,et al.LAFED:A lightweight authentication mechanism for blockchain-enabled federated learning systemJ.Future generation computer systems,2023,145:56-67.【作者简介】谢逸超（1997），男，福建龙岩人，硕士研究生，研究方向：信息处理。（收稿日期：2023-01-09 修回日期：2023-04-15）

下载提示：咨信网仅提供存储空间/不修改/不编辑

【自信AI创作助手】【自信AI导航】
1、请仔细预览页面，基本判断完整性，对于直接下载带来的问题请及时与客服沟通；下载的文档，不会出现我们的网址水印。
2、该文档所得收入（下载+内容+预览）归上传者、原创作者；如果您是本文档原作者，请点此认领！既往收益都归您。

同意并开始全文预览

举报此文档有问题？有机会获“体验VIP”奖励！

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

10 金币 0人已下载

申诉本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请申请举报、认领或删除 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 基于本地隐私联邦学习保护方法

咨信网温馨提示：
1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时私信或留言给本站上传会员【自信****多点】，需本站解决可联系【微信客服】、【 QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”（推荐），意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：4008-655-100；投诉/维权电话：4009-655-100。