![点击分享此内容可以赚币 分享](/master/images/share_but.png)
基于区块链共识激励机制的新型联邦学习系统.pdf
《基于区块链共识激励机制的新型联邦学习系统.pdf》由会员分享,可在线阅读,更多相关《基于区块链共识激励机制的新型联邦学习系统.pdf(18页珍藏版)》请在咨信网上搜索。
1、第 9 卷 第 1 期 信 息 安 全 学 报 Vol.9 No.1 2024 年 1 月 Journal of Cyber Security January 2024 通讯作者:翁渊,Email:。本课题得到中国国家自然基金(No.61903053),重庆市科教委项目(No.KJCX2020033),上海市信息安全综合管理技术重点实验室开放课题(No.AGK2020006)资助。收稿日期:2022-05-05;修改日期:2022-08-20;定稿日期:2023-09-26 基于区块链共识激励机制的新型联邦学习系统 米 波1,翁 渊1,黄大荣1,刘 洋1 1重庆交通大学 信息科学与工程学院 重
2、庆 中国 400074 摘要 随着云存储、人工智能等技术的发展,数据的价值已获得显著增长。但由于昂贵的通信代价和难以承受的数据泄露风险迫使各机构间产生了“数据孤岛”问题,大量数据无法发挥它的经济价值。虽然将区块链作为承载联邦学习的平台能够在一定程度上解决该问题,但也带来了三个重要的缺陷:1)工作量证明(Proof of Work,POW)、权益证明(Proof of Stake,POS)等共识过程与联邦学习训练过程并无关联,共识将浪费大量算力和带宽;2)节点会因为利益的考量而拒绝或消极参与训练过程,甚至因竞争关系干扰训练过程;3)在公开的环境下,模型训练过程的数据难以溯源,也降低了攻击者的投毒
3、成本。研究发现,不依靠工作量证明、权益证明等传统共识机制而将联邦学习与模型水印技术予以结合来构造全新的共识激励机制,能够很好地避免联邦学习在区块链平台上运用时所产生的算力浪费及奖励不均衡等情况。基于这种共识所设计的区块链系统不仅仍然满足不可篡改、去中心化、49%拜占庭容错等属性,还天然地拥有 49%投毒攻击防御、数据非独立同分布(Not Identically and Independently Distributed,Non-IID)适应以及模型产权保护的能力。实验与论证结果都表明,本文所提出的方案非常适用于非信任的机构间利用大量本地数据进行商业联邦学习的场景,具有较高的实际价值。关键词 联
4、邦学习;区块链;共识算法;模型产权保护;投毒攻击 中图法分类号 TP309.2 DOI 号 10.19363/J10-1380/tn.2024.01.02 A Novel FL System Based on Consensus Motivated Block-chain MI Bo1,WENG Yuan1,HUANG Darong1,LIU Yang1 1 School of Information and Engineering,Chongqing Jiaotong University,Chongqing 400074,China Abstract With the advancemen
5、t of technologies such as cloud storage and AI(artificial intelligence)in recent years,the value of data has experienced significant growth.However,the exorbitant costs associated with communication and the intolerable risks of data leakage have given rise to a pervasive issue of“data isolation”amon
6、g institutions,rendering a substantial portion of data unable to realize its full economic potential.Although using blockchain as a platform for feder-ated learning can solve this problem to a certain extent,it also brings three primary shortcomings:1)traditional consensus processes like PoW(proof o
7、f work)and PoS(proof of stake)remain largely disconnected from the federated learning training process,resulting in substantial wastage of computational power and bandwidth;2)nodes may decline to partici-pate actively in the training process or even disrupt it due to self-interest considerations,dri
8、ven by competitive dynamics;3)in open environments,data traceability during the model training process is challenging to establish,consequently di-minishing the cost of attack for potential malevolent actors.Our study manifested that,instead of relying on traditional consensus mechanisms such as PoW
9、 and PoS,combining federated learning and model watermarking technology can make the consensus algorithm more fair and reliable.It can avoid the waste of computing power and unbalanced rewards thanks to federated learning,and the innovative consensus mechanism not only retained the properties of imm
10、utability,decentralization,and 49%byzantine fault tolerance but also naturally resisted 49%poisoning attack,adapted Non-IID(not independent and identically distributed)dataset and protected intellectual property.Both experimental and empirical evi-dence unequivocally demonstrate that the proposed so
11、lution in this study is exceptionally well-suited for scenarios involv-ing non-trusting institutions collaboratively leveraging large volumes of local data for commercial federated learning,thereby holding substantial practical value.Key words federated learning;blockchain;consensus algorithm;intell
12、ectual property protection;poison attack 16 Journal of Cyber Security 信息安全学报,2024 年 1 月,第 9 卷,第 1 期 1 引言 大数据驱动的人工智能技术有助于在整体上生成高精度泛化模型,但在实际应用过程中却往往存在着数据来源不足的状况1-2。作为一种新兴的机器学习框架,联邦学习(Federated Learning,FL)可以在节点数据孤立的情况下实现分布式模型训练,在一定程度上解决机器学习过程中的数据稀缺问题。此外,由于这种方案3能够在人工智能模型的训练过程中将数据离线,因而也具有数据隐私保护和节省带宽的能力。
13、随着智能边缘设备的普及和性能提升,移动网络的计算能力不断增强,联邦学习在智慧交通4、智慧城市5、商业数据挖掘6-7等领域都得到了广泛的应用。目前联邦学习已经与很多行业相融合,且在区块链、模型水印等技术的促进下不断赋予新的功能8,对实际生活产生了良好的经济效益和社会价值。在信息化时代,大数据背景下的数据隐私问题愈来愈受到人们的关注。由于数据与生活、生产的关联性日益增强,隐私泄露问题必然会遭到社会的广泛抵制,信息价值开发和敏感数据保护之间的矛盾正不断显现9。例如,2020 年 12 月,“明星健康宝照片泄露”事件中大量用户个人数据被非法贩卖,引起我国公安机关的高度警觉和公众的广泛讨论。2017 年
14、 6 月 1 日起实施的中华人民共和国网络安全法指出不得泄露、篡改用户数据,且自 2020 年以来 数据安全法、个人信息保护法 相继出台,这也充分说明了国家对数据隐私保护的重视。针对机器学习中存在的数据安全风险,学者提出了一系列的隐私保护方案,主要包括联邦学习、多方安全计算(Secure multiparty computation,SMPC)10-11、同态加密(Homomorphic encryption,HE)12-13和差分隐私(Differential privacy,DP)14-15这几类主流技术,其中联邦学习采用的分布式离线训练方法能够在隐私保护的同时有效节省通信及计算资源,非常
15、适用于数据量大、数据源分布广、信息敏感度高的场景。联邦学习的概念最初出现于文献16,逐步演化为纵向联邦学习17、横向联邦学习18和联邦迁移学习19三种基本框架。其中,纵向联邦学习主要适用于参与方数据记录大量重合的场景,而横向联邦学习主要考虑节点间数据特征基本相同的情况,当参与方的样本空间有部分重叠但特征不尽相同时联邦迁移学习则更为适合。在算力不均衡的可信任环境中,上述三类方案往往采用 C/S(客户/服务器,Client/Server)模式予以实现。正是因为充分利用了吞吐量高、性能优异的设备作为中心节点,C/S 模式相较于分布式学习具有训练效率更高、利益分配更均衡、本地数据更安全等优势。然而,在
16、非信任环境下,C/S模式的联邦学习方法极易遭受身份伪造、数据篡改、拒绝服务(Denial of Service,DoS)等攻击的威胁。为解决这些信任问题,文献20提出一种基于区块链的联邦学习方案,将抽象的可信服务节点实例化为分布式的共识激励机制;文献21将联邦学习中的梯度作为一部分贡献,结合 Algorand 共识协议提升了激励的公平性。文献22中通过降低联邦学习中的交互参数以保证用户的匿名性从而降低收到攻击的风险。图 1 展示了基于链上共识的联邦学习整体框架。该框架中的节点可同时或分别扮演数据提供者和区块挖掘者两种角色。所有参与者在本地数据集上完成子模型的训练,随后将其上传至随机选择或投票选
17、举出来的矿工。矿工负责对所有本地模型进行验证与融合,然后根据 PoW 或 PoS 共识机制产生新的区块。这些区块要负责记录矿工的挖矿奖励和数据提供者的贡献奖励,并存储模型更新后的参数。随后,参与者将聚合后的模型再次下载,不断地重复上述过程直至得到满意的全局机器学习模型。由此可见,这种机器学习方法的本质在于间接的数据共享和有效的合作激励,因此共识算法的可靠性和奖励机制的公平性会直接影响整个系统的性能。图 1 基于区块链的联邦学习框架 Figure 1 A federated learning framework based on blockchain 尽管基于共识的联邦学习方法有助于建立起参与节
18、点间的广泛信任,但现有方案仍普遍存在着以下三方面的缺陷:米波 等:基于区块链共识激励机制的新型联邦学习系统 17 1)资源浪费问题。文献23指出,将区块链作为联邦学习过程中数据和模型的载体,主要是为了保证相关信息能够被可靠地记录及追溯。然而,由于PoW24、PoS25等“挖矿”行为与联邦学习过程的收敛性并无直接关联,共识机制的引入会直接导致大量算力和带宽被浪费。2)节点活性问题。在实际生产环境中,节点数据和计算资源都是具有一定经济价值的。在某一节点发起联邦学习的模型训练后,其他节点可能会因为利益的考量而拒绝或消极合作,甚至会因为竞争关系投入虚假数据对模型进行干扰,最终导致全局模型无法使用或训练
19、过程无法收敛。3)攻击手段的多样性问题。尽管联邦学习领域正不断引入各种新的机制来对抗日益多样化的攻击手段,但大都针对片面的安全目标26。与传统机器学习所面临的威胁类似,模型攻击27、投毒攻击28、后门攻击29、推理攻击30等方法在联邦学习中也主要是对数据隐私和全局模型进行破坏。事实上,联邦学习在一定程度上具有数据隐私保护的特性。因此,安全机制的实现不应当以攻击手段为驱动,而需要将数据保密性和模型准确性作为根本目的。联邦学习的商业场景往往具有参与节点数量少、合作关系松散耦合的特点。此外,非信任分布式环境的物理脆弱性和攻击来源的多样性极有可带来节点丢失、数据污染、模型篡改等隐患,从而导致训练过程因
20、无法准确收敛而失败。为此,本文将针对节点数量有限、数据吞吐量大、互信程度低的跨企业分布式场景,结合区块链及水印技术来构造一种全新的共识激励机制,从而解决联邦学习中算力浪费、奖励不均以及鲁棒性弱的问题。总体而言,其基本思想是借助区块链的一致性记录能力以及模型水印的版权保护机制,将模型训练分发到多个节点上并行执行,每轮结束后多个矿工将分别对收集到的本地模型进行聚合,并根据评价准则在链上达成模型准确度和参与者贡献度的共识,由此产生新的区块,不断迭代直至获得期望的全局模型。在具体的实施过程中,参与训练的节点会将自身的水印嵌入到梯度模型中用于证明所做出的贡献。为了争夺写入权限,所有融合节点将利用所接收到
21、的梯度构造一个能够让大多数节点都认可的全局模型。最终,达成共识的全局模型将会由它的创造者写入区块。基于上述策略,本文将 Paxos 共识协议31中的投票理念与联邦学习相结合,构造出一种新型共识协议 Paxos Federated Consensue(PFconsensue),并通过高鲁棒性水印融合算法的设计,最终形成一套可证明完备的联邦学习共识激励机制。本文的贡献主要在以下几个方面:1)基于联邦学习的共识协议。将联邦学习的训练过程作为节点“挖矿”环节,使消耗的资源转换成具有经济价值的人工智能模型。同时,模型聚合采用去中心化与性能投票的方式进行,克服了联邦学习中 Non-IID32与投毒攻击所造
22、成的全局模型性能下降的缺点,实现了联邦学习与区块链技术的优势互补。2)公平的区块链共识激励机制。为提高联合训练的参与度,依靠高鲁棒性模型水印技术和参数距离算法,实现了公平的节点贡献度分配,可以更好地刺激节点参与模型训练过程。在模型聚合环节,将区块的写入权奖励给最优模型的创造者,也能够充分地保证节点积极参与模型聚合。可见,该区块链系统在本地训练和模型聚合两方面均保证了参与节点的活性。3)系统的整体完备性证明。从理论上了证明了共识算法的正确性,并通过形式化方式分析了共识算法在拜占庭环境下的容错能力。同时,通过实际数据的分布情况抽象出相应的约束条件,分别讨论了该系统组成部分在实际环境中运行的有效性与
23、稳定性。此外,对系统的整体安全性也进行了充分的证明。4)实验仿真及分析。利用计算机模拟验证了共识协议的有效性。根据实际采集的“重庆市实时交通流”数据在多台设备间部署共识决策环境,验证了本方案在现实环境中的可行性及准确性。此外,基于系统性的区块链仿真,进一步展示了本方案对联邦学习中潜在威胁的抵抗力。2 系统整体模型 由于区块链具有不可篡改、易追溯和去中心化等优势,与联邦学习相结合能够极大程度地克服联邦学习中所潜在的风险。对此,本章节将基于PFconsensue 协议、模型水印等技术构造整体的区块链系统,并给出实际环境中的安全性形式化定义。2.1 系统框架设计 当前已有部分研究人员将区块链用于解决
24、联邦学习在非信任环境中的安全协同训练问题。文献33中选取区块链上的可靠节点来参与联邦学习,并通过差分隐私技术以保证训练数据的安全。文献34则将联邦学习过程中的全局数据组织成“全局模型状态树”,作为交易内容存储到区块链中。而文献35也类似地利用区块链存储联邦学习过程中的各种模型参数,该方案还可以借助其他边缘设备来分担训18 Journal of Cyber Security 信息安全学报,2024 年 1 月,第 9 卷,第 1 期 练能耗。然而,由于以上方案皆未考虑模型所具有的知识产权特性,可能产生模型盗用现象,也将导致参与方发生产权纠纷。另一方面,依附于区块链的联邦学习会因为共识过程而造成大
25、量的资源浪费,导致节点参与度下降。为了解决上述两个问题,本文设计了图 2 所示的联邦区块链结构。在该结构中,链上记录的数据主要包括:(1)上一个区块的 Hash;(2)融合后的模型参数;(3)构造融合模型所使用的局部梯度集合;(4)基于评价准则的产权奖励;(5)下一轮训练的优化目标。图 2 本文区块链系统结构 Figure 2 The structure of the blockchain system in this paper 在协议开始时,参与节点将会从区块链上获取公开发布的初始模型及训练目标,并在本地训练出包含水印的梯度模型。随后,节点会将梯度模型通过Gossip 协议36进行广播,并
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 区块 共识 激励机制 新型 联邦 学习 系统
![提示](https://www.zixin.com.cn/images/bang_tan.gif)
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。