2022年联邦学习全球研究与应用趋势报告.pdf
《2022年联邦学习全球研究与应用趋势报告.pdf》由会员分享,可在线阅读,更多相关《2022年联邦学习全球研究与应用趋势报告.pdf(108页珍藏版)》请在咨信网上搜索。
1、人工智能之联邦学习 2022 联邦学习全球研究与应用趋势报告 1 联邦学习全球研究与应用趋势报告2022 a m i n e r.c n 深圳 TR 清华大学深圳国际研究生院知识工程研究中心 北京智谱华章科技有限公司 开放群岛开源社区 人工智能之联邦学习 2022 联邦学习全球研究与应用趋势报告 2 主要发现主要发现 “中美双雄”引领全球联邦学习发展“中美双雄”引领全球联邦学习发展 中国和美国的联邦学习论文发布量遥遥领先于其他国家。高被引论文之中有六成以上是来自中美两国,中美两国论文合作数量也全球最多;杰出论文之中有 45.5%来自美国、31.8%来自中国,中美两国合占达七成以上。联邦学习全球
2、高被引论文领先的机构是谷歌(8 篇)、卡内基梅隆大学(5 篇)。中国的高被引论文量较多的机构是北京邮电大学(4 篇)、微众银行(3 篇)。杰出论文数量则是美国的卡内基梅隆大学与中国的香港科技大学各以 3 篇而并列第一。联邦学习领域的全球高被引论文作者主要聚集在中美。美国的高被引论文作者数量最多,占全球一半,也是中国的 2.6 倍。全球专利受理数量以中国地区最多,约占全球受理总量的六成,是在美国受理专利量的 4 倍。专利申请数量前三名机构全部是中国机构。开源框架主要来自中美,其中 OpenMined 推出的 Pysyft、微众银行的 FATE 和谷歌的 TFF 框架的热度居于全球前三位。未来联邦
3、学习研究趋势将更多与算法模型和安全隐私技术相关未来联邦学习研究趋势将更多与算法模型和安全隐私技术相关 目前联邦学习研究热点主要聚焦在机器学习方法、模型训练、隐私保护三方面。未来几年研究趋势将更多涉及算法模型和安全隐私技术,如数据隐私、深度学习、差分隐私、边缘计算、物联网、云计算、移动设备、同态加密、优化问题、沟通效率等。行业应用越来越成熟,应用研究方向呈现出更多与物联网、区块链、车辆交互、5G/6G等技术融合的态势。人工智能之联邦学习 2022 联邦学习全球研究与应用趋势报告 3 目目 录录 1.1.报告说明报告说明.5 5 1.1 1.1 数据范围数据范围.6 6 1.2 1.2 联邦学习知
4、识树联邦学习知识树.6 6 2.2.引言引言 .8 8 3.3.联邦学习技术研究与应用现状联邦学习技术研究与应用现状 .1010 3.1 3.1 技术研究现状技术研究现状 .1010 3.1.1 科研论文成果现状 10 3.1.2 高被引论文分析 18 3.1.3 联邦学习的特刊、书籍和综述 32 3.1.4 联邦学习研讨会杰出论文 36 3.1.5 高被引论文作者的人才地图与画像 41 3.1.6 专利申请现状 55 3.2 3.2 联邦学习框架与系统现状联邦学习框架与系统现状 .6060 3.2.1 开源框架 60 3.2.2 非开源框架与系统 70 3.3 3.3 联邦学习行业应用现状联
5、邦学习行业应用现状.8080 4.4.联邦学习发展趋势联邦学习发展趋势 .8787 4.1 4.1 研究趋势研究趋势.8787 4.2 4.2 技术成熟度技术成熟度 .8888 4.3 4.3 市场化与商业化趋势市场化与商业化趋势 .8989 4.4 4.4 国内外相关标准国内外相关标准.9090 4.5 4.5 生态建立与发展生态建立与发展.9292 5.5.结语结语 .9393 附录一 联邦学习领域顶级国际期刊会议列表.95 附录二 联邦学习架构和应用规范简介.96 附录三 联邦学习五份特刊的已发表文章.97 参考文献.103 致谢.107 版权说明.108 人工智能之联邦学习 2022
6、联邦学习全球研究与应用趋势报告 5 1 1.报告说明报告说明 自上期联邦学习全球研究与应用趋势报告发布以来,联邦学习领域在科研成果持续增长的同时,其行业环境越来越规范化。尤其是随着数据安全法、关键信息基础设施安全保护条例、个人信息保护法等政策的陆续发布实施,安全行业界对信息安全与隐私数据的重视再度升级,将深度影响到联邦学习研究和应用的发展动向和趋势。因此,我们对报告进行了更新,旨在寻找与展示最新发现。联邦学习(Federated Learning)是在进行分布式机器学习的过程中,各参与方可借助其他参与方数据进行联合建模和使用模型。参与各方无需传递和共享原始数据资源,同时保护模型参数,即在数据不
7、出本地的情况下,进行数据联合训练、联合应用,建立合法合规的机器学习模型1。联邦学习是一种新兴的人工智能基础技术,其概 念 于 2016 年 由 谷 歌 公 司 H.Brendan Mcmahan 在 论 文Federated Learning of 1 杨强、刘洋、陈天健等:联邦学习,载中国计算机学会通讯,2018 年版,第 49-55 页。2 McMahan,H.B.,Moore,E.,Ramage,D.,&y Arcas,B.A.(2016).Federated learning of deep networks using model averaging.arXiv preprint a
8、rXiv:1602.05629.3 https:/www.fedai.org/cases/utilization-of-fate-in-anti-money-laundering-through-multiple-banks/4 Liu,Y.,Huang,A.,Luo,Y.,Huang,H.,Liu,Y.,Chen,Y.,Feng,L.,Chen,T.,Yu,H.,&Yang,Q.(2020).“FedVision:An Online Visual Object Detection Platform Powered by Federated Learning,”Proceedings of t
9、he AAAI Conference on Artificial Intelligence,34(08),13172-13179.5 Li W.et al.“Privacy-Preserving Federated Brain Tumour Segmentation,”In:Suk HI.,Liu M.,Yan P.,Lian C.(eds)Machine Learning in Medical Imaging.MLMI 2019.Lecture Notes in Computer Science,vol 11861.Springer,Cham.6 Ben Tan,Bo Liu,Vincent
10、 Zheng,and Qiang Yang.2020.A Federated Recommender System for Online Services.In Fourteenth ACM Conference on Recommender Systems(RecSys 20).Association for Computing Machinery,New York,NY,USA,579581.DOI:https:/doi.org/10.1145/3383313.3411528 Deep Networks using Model Averaging 2 中最先提出,原本用于解决安卓手机终端用
11、户在本地更新模型的问题,后经香港科技大学与微众银行杨强教授所领导团队在 2018 年将其扩展为机构间B2B 分布式联合建模架构,包括按样本、特征分割以及异构多方建模,同时可以建立去中心协调器的Peer-to-Peer 架构形式,其设计目标是在保障大数据交换时的信息安全、保护终端数据和个人数据隐私、保证合法合规的前提下,在多参与方或多计算结点之间开展高效率,安全、可靠的机器学习。联邦学习同时包括鼓励多方持续参与合作生态的激励机制,建立正向激励的数据价值交易市场机制。当下,联邦学习已经被大量应用于金融3、安防4、医疗5、在线推荐系统6等领域。联邦学习有望成为下一代人工智能协同算法,隐私计算和协作网
12、络的基础。人工智能之联邦学习 2022 联邦学习全球研究与应用趋势报告 6 2022 联邦学习全球研究与应用趋势报告主要从技术研究、学者画像、主流框架、行业应用,以及发展趋势几大方面,较为全面深入地介绍联邦学习自 2016 年诞生以来到 2021 年的技术研究和应用进展,并展望该技术的未来发展方向与前景。本期报告不仅将数据范围扩展到 2016-2021 年、更新了相关技术数据统计、现状进展等内容,而且重点突出了对科研实践具有较大影响力的高被引论文及其作者的分析,同时增加了来自几个知名人工智能国际顶会中关于联邦学习专题研讨会的杰出论文相关分析,以展示该领域具有较高技术质量、创新力的科研成果。1
13、1.1.1 数据范围数据范围 本报告研究数据范围是科技情报大数据挖掘与服务系统平台 AMiner 数据库所收录的 2016-2021 年期间与联邦学习研究主题强相关的论文数据、专利数据以及公开数据等。论文的引用量数据统计截止日期为 2022 年 3 月 31 日。1 1.2.2 联邦学习联邦学习知识知识树树 本报告根据联邦学习的关键技术和相关技术,利用 AMiner 数据库中该领域的高水平学术论文,将挖掘出的全球活跃的联邦学习重要技术点表征为知识树结构,如图 1所示。人工智能之联邦学习 2022 联邦学习全球研究与应用趋势报告 7 图图 1 1 联邦学习联邦学习知识树知识树 人工智能之联邦学习
14、 2022 联邦学习全球研究与应用趋势报告 8 2 2.引言引言 人工智能未来能否可持续发展面临两大困境。一是数据困境数据困境。人工智能和机器学习算法具有对数据强依赖的特性。现实中,多数行业领域存在着数据有限且质量较差的问题,并且以碎片化的形式分散存在,不足以支撑人工智能技术的实现。同时,数据源之间存在着难以打破的壁垒。由于行业竞争、隐私安全、行政手续复杂等问题,数据还多是以孤岛形式存在的。此外,研究界和企业界目前的情况是收集数据的一方通常不是使用数据的一方。因此,将分散在各地、各机构的数据进行整合用于机器学习所需的成本非常巨大。二是法律法律挑战挑战。当前,重视数据隐私和安全已经成为世界性的趋
15、势,各国都在不断地推出和加强完善对数据安全和隐私保护的相关法规。欧盟2018 年正式施行通用数据保护条例(General Data Protection Regulation,GDPR)。在中国,全国信息安全标准委员会先后于 2017 年 12 月和2020 年 3 月发布了两版信息安全技术个人信息安全规范(GB/T 35273-2017、GB/T 35273-7 中华人民共和国网络安全法,中共中央网络安全和信息化委员会办公室、中华人民共和国国家互联网信息办公室,http:/ 8 中华人民共和国民法总则,中华人民共和国中央人民政府,http:/ 9 中华人民共和国数据安全法,中国人大网,202
16、1 年 06 月 10 日,http:/ 10 中华人民共和国个人信息保护法,中国人大网,2021 年 08 月 20 日,http:/ 11 关键信息基础设施安全保护条例,中国政府网,2021 年 08 月 17 日http:/ 12 杨强、刘洋、陈天健等:联邦学习,载中国计算机学会通讯,2018 年版,第 49-55 页。2020),对个人信息收集、储存、使用做出了明确规定。此外,在 2017 年起实施的中华人民共和国网络安全法7 和 中华人民共和国民法总则8 中也指出网络运营者不得泄露、篡改、毁坏其收集的个人信息,并且与第三方进行数据交易时需确保在合同中明确约定拟交易数据的范围和数据保护
17、义务。2021 年陆续公布实施了数据安全法9、个人信息保护法10、关键信息基础设施安全保护条例11,为数据安全提供了法律保护,更规范了数据的合法合规使用。针对以上困境,“狭义”联邦机器学习的概念于 2016 年由谷歌研究人员首先提出,随后成为一个解决数据孤岛问题、满足隐私保护和数据安全的一个可行性解决方案 12。联邦学习的特征是数据不出本地、各个参与者的身份和地位平等、它能够实现多个参与方在保护数据隐私、满足合法合规要求的前提下进行机器学习,协同地进行模型训练与结果预测,并且建模效果和将整个数据集放在一处建模的效果相同或相差不大(在各个数据的用户对齐(user alignment)或特征对齐(
18、feature alignment)的条件下)12,从而实现企业间的数人工智能之联邦学习 2022 联邦学习全球研究与应用趋势报告 9 据融合建模,解决数据孤岛问题。“广义”联邦学习的概念,由香港科技大学杨强教授所领导的微众银行 AI 团队在 2018 年提出,将联邦学习扩展为机构和个人间的 B2C 模式和不同机构间 B2B分布式联合建模架构,包括按样本、按特征分割以及异构多方建模,同时可以建立去中心协调器的 Peer-to-Peer 架构形式,其设计目标是在保障大数据交换时的信息安全、保护终端数据和个人数据隐私、保证合法合规的前提下,在多参与方或多计算结点之间开展高效率,安全、可靠的机器学习
19、和模型使用。联邦学习同时包括鼓励多方持续参与合作生态的激励机制,建立正向激励的数据价值交易市场机制。如上所述,根据孤岛数据的分布特点(用户与用户特征的重叠情况),联邦学习可以分为横向联邦学习、纵向联邦学习与联邦迁移学习13。联邦学习能够成功的一个重要根基,在于与激励机制、隐私保护等技术的融合。联邦学习激励机制研究的是如何量化每个参与方对数据联邦带来的收益,公平地与参与者分享部分收益以此作为激励,从而实现数据联邦长期的可持续经营14。为了防止恶意攻击者通过模型反演等攻击手段复现原始数据,联邦学习通过与安全多方计算(Secure Multi-Party Computation,MPC)、同态加密(
20、Homomorphic Encryption,HE)、差分隐私(Differential Privacy,DP)和可信执行环境(Trusted Execution Environment,TEE)等隐私计算技术相融合,进一步提升对数据的隐私保护。联邦学习与隐私计算技术的融合通常需要在模型精度、模型训练效率和数据安全性这三个维度之间进行权衡和取舍。如何能够在这三个维度上得到综合性的提升,是联邦学习的一个热点研究方向。联邦学习作为未来 AI 发展的底层技术,它依靠安全可信的数据保护措施下连接数据孤岛的模式,将不断推动全球 AI 技术的创新与飞跃。随着联邦学习在更大范围和更多行业场景中的渗透及应用,
21、它不仅能辅助人类的工作及生活,也将逐步改变人类的认知模式,促进全社会智能化水平提升,并以“合作共赢”的模式带动跨领域的企业级数据合作,有效降低技术应用的成本和门槛,催生基于联合建模的新业态,进而推动社会经济及发展15。截至目前尚没有关于联邦学习技术发展的权威统计,本报告将主要回顾其从 2016 年诞生至2021 年的技术发展趋势,作为学者们了解该技术进展的重要渠道。未来我们将定期进行该技术的阶段性回顾。13 Liu Y,Chen T,Yang Q.Secure Federated Transfer Learning FrameworkJ.IEEE Intelligent Systems,vol
22、.35,no.4,pp.70-82,1 July-Aug.2020.14 杨强,刘洋,程勇,康焱,陈天健:联邦学习,电子工业出版社:北京,2020 年:99-99.15 微众银行人工智能部、鹏城实验室、腾讯研究院、中国信通院云大所、平安科技、招商局金融科技、电子商务与电子支付国家工程实验室(中国银联):联邦学习白皮书 V2.0,深圳,2020 年,第 5-7 页。人工智能之联邦学习 2022 联邦学习全球研究与应用趋势报告 10 3 3.联邦学习联邦学习技术研究与技术研究与应用应用现现状状 3 3.1.1 技术技术研究研究现状现状 3.1.3.1.1 1 科研科研论文论文成果成果现状现状 (1
23、)论文发表量复合年增长率为 40%基于 AMiner 系统,通过关键词组16在标题和摘要中检索 2016 年至 2021 年论文数据。结果显示,研究时段内联邦学习相关论文共计 4576 篇,自 2016 年被提出以来,研究论文数量逐年增多,到 2021 年的复合年增长率为 40.78%,相关论文趋势如错误错误!未找到引用源。未找到引用源。所示。图图 2 2 联邦学习研究论文趋势(联邦学习研究论文趋势(2 2016016-20212021 年)年)(2 2)论文发布量论文发布量以中美两国以中美两国为为引领引领 根据论文作者所在机构所属国家进行排序分析,发现近年来联邦学习论文发布量 TOP10 国
24、家依次是中国、美国、英国、俄罗斯、德国、印度、16 联邦学习关键词检索式:Federated Machine Learning OR Federated optimization OR federated learning OR federation learning OR(Privacy AND Distributed AND data mining)OR(Secure AND Distributed AND data mining)OR(Secure AND Multiparty)OR(Secure AND Multi-party)OR(privacy AND Multi-party)OR
25、(privacy AND Multiparty)OR(Privacy AND Distributed AND machine learning)OR(Secure AND Distributed AND machine learning)OR(Privacy and joint learning)OR(Secure and joint learning)OR(Privacy AND Distributed AND deep learning)OR(Secure AND Distributed AND deep learning)澳大利亚、加拿大、日本和法国。相关论文量较突出的国家是中国(124
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2022 联邦 学习 全球 研究 应用 趋势 报告
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【Stan****Shan】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【Stan****Shan】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。