2021联邦学习全球研究与应用趋势报告.pdf
《2021联邦学习全球研究与应用趋势报告.pdf》由会员分享,可在线阅读,更多相关《2021联邦学习全球研究与应用趋势报告.pdf(104页珍藏版)》请在咨信网上搜索。
1、人工智能研究院知识智能中心中国工程院知识智能联合研究中心2021全球联邦学习研究与应用趋势报告2021 Global Federal Learning Research And Application Trend Report2021.09数据支持:AM1主要发现联邦学习是一种新兴的人工智能基础技术。本报告从技术研究、行业应用、学者画像以及发展趋势等维度,较为全面深入地分析了联邦学习自2016年诞生至2020年的重要发展成就。联邦学习“中美双雄”格局显现中美两国有关联邦学习的论文发布量遥遥领先于其他国家;在论文发布量TOP 10机构中,中美各占4席和3席;中美两国论文合作数量也全球最多,且半数
2、以上的高被引论文来自中美两国,但美国的论文引用量显著领先,中国位居第二。全球专利受理数量以中国地区最多,共1514项;美国位居第二,共579项。在专利申请数量TOP10机构中,中国占7席,美国占3席。开源框架主要来自中美,其中OpenMined 推出的Pysyft、微众银行的FATE和谷歌的TFF框架的热度居于全球前三位。联邦学习领域的全球学者共计2,764名,中美分别拥有816和817名,各占全球总量的30%。未来联邦学习研究趋势将与算法模型和安全隐私技术相关目前联邦学习研究热点主要聚焦在机器学习方法、模型训练、隐私保护三方面。未来几年研究趋势将与算法模型和安全隐私技术相关,如Edge Co
3、mputing(边缘计算)、Data Heterogeneity(数据异质性)、Internet Of Things(物联网)、Blockchain(区块链)、Wireless Communication(无线通信)、Communication Efficiency(沟通效率)等。行业应用研究方向呈现出不断与区块链、物联网、车辆交互、5G等技术融合的态势。2人工智能之联邦学习2021联邦学习全球研究与应用趋势报告编写团队顾问李涓子清华大学人工智能研究院知识智能中心唐杰清华大学人工智能研究院知识智能中心编写团队张淼张建伟张淳数据仇瑜赵慧军版式设计边云风3目 录报告说明 数据范围 联邦学习知识树引
4、言 人工智能可持续发展面临的困境 联邦学习概念的介绍联邦学习技术研究与应用现状 技术研究现状 联邦学习框架与系统现状 联邦学习行业应用现状联邦学习发展趋势 研究趋势 技术成熟度 市场化与商业化趋势 推行联邦学习的国内外标准 建立联邦学习生态结语4报 告 说 明联邦学习(Federated Learning)是在进行分布式机器学习的过程中,各参与方可借助其他参与方数据进行联合建模和使用模型。参与各方无需传递和共享原始数据资源,同时保护模型参数,即在数据不出本地的情况下,进行数据联合训练、联合应用,建立合法合规的机器学习模型1。联邦学习是一种新兴的人工智能基础技术,其概念于 2016 年由谷歌公司
5、H.Brendan Mcmahan 在论 文Federated Learning of Deep Networksusing Model Averaging2中最先提出,原本用于解决安卓手机终端用户在本地更新模型的问题,后经香港科技大学与微众银行杨强教授所领导团队在2018年将其扩展为机构间B2B分布式联合建模架构,包括按样本、特征分割以及异构多方建模,同时可以建立去中心协调器的Peer-to-Peer架构形式,其设计目标是在保障大数据交换时的信息安全、保护终端数据和个人数据隐私、保证合法合规的前提下,在多参与方或多计算结点之间开展高效率,安全、可靠的机器学习。联邦学习同时包括鼓励多方持续参与
6、合作生态的激励机制,建立正向激励的数据价值交易市场机制。当下,联邦学习已经被大量应用于金融3、安防4、医疗5、在线推荐系统6等领域。联邦学习有望成为下一代人工智能协同算法,隐私计算和协作网络的基础。2021联邦学习全球研究与应用趋势报告主要从技术研究、学者画像、主流框架、行业应用,以及发展趋势几大方面,较为全面深入地介绍联邦学习自2016年诞生以来到2020年的技术研究和应用进展,并展望该技术的未来发展方向与前景。(一)数据范围本报告研究数据范围是科技情报大数据挖掘与服务系统平台AMiner数据库所收录的2016-2020年期间与联邦学习研究主题强相关的论文数据、专利数据以及公开数据等。论文的
7、引用量数据统计截止日期为2021年5月31日。(二)联邦学习知识树本报告根据联邦学习的关键技术和相关技术,利用AMiner 数据库中近年来该领域的高水平学术论文,挖掘出了全球活跃的联邦学习的重要技术点,并表征为知识树结构,如图1所示。1杨强、刘洋、陈天健等:联邦学习,载中国计算机学会通讯,2018年版,第49-55页。2 McMahan,H.B.,Moore,E.,Ramage,D.,&y Arcas,B.A.(2016).Federated learning of deep networks using model averaging.arXiv preprint arXiv:1602.05
8、629.3https:/www.fedai.org/cases/utilization-of-fate-in-anti-money-laundering-through-multiple-banks/4Liu,Y.,Huang,A.,Luo,Y.,Huang,H.,Liu,Y.,Chen,Y.,Feng,L.,Chen,T.,Yu,H.,&Yang,Q.(2020).“FedVision:An Online Visual Object Detection Platform Powered by Federated Learning,”Proceedings of the AAAI Confer
9、ence on Artificial Intelligence,34(08),13172-13179.5图 1 AI 2000人工智能子领域导图5Li W.et al.“Privacy-Preserving Federated Brain Tumour Segmentation,”In:Suk HI.,Liu M.,Yan P.,Lian C.(eds)Machine Learning in Medical Imaging.MLMI 2019.Lecture Notes in Computer Science,vol 11861.Springer,Cham.6Ben Tan,Bo Liu,Vi
10、ncent Zheng,and Qiang Yang.2020.A Federated Recommender System for Online Services.In Fourteenth ACM Conference on Recommender Systems(RecSys 20).Association for Computing Machinery,New York,NY,USA,579581.DOI:https:/doi.org/10.1145/3383313.34115286引 言人工智能未来能否可持续发展面临两大困境。一是数据困境。人工智能和机器学习算法具有对数据强依赖的特性
11、。现实中,多数行业领域存在着数据有限且质量较差的问题,并且以碎片化的形式分散存在,不足以支撑人工智能技术的实现。同时,数据源之间存在着难以打破的壁垒。由于行业竞争、隐私安全、行政手续复杂等问题,数据还多是以孤岛形式存在的。此外,研究界和企业界目前的情况是收集数据的一方通常不是使用数据的一方。因此,将分散在各地、各机构的数据进行整合用于机器学习所需的成本非常巨大。二是法律挑战。当前,重视数据隐私和安全已经成为世界性的趋势,各国都在不断地推出和加强完善对数据安全和隐私保护的相关法规。欧盟2018年正式施行通用数据保护条例(General DataProtection Regulation,GDPR
12、)。在中国,全国信息安全标准委员会先后于2017年12月和2020年3月发布了两版信息安全技术个人信息安全规范(GB/T 35273-2017、GB/T 35273-2020),对个人信息收集、储存、使用做出了明确规定。此外,在2017年起实施的中华人民共和国网络安全法7和中华人民共和国民法总则8中也指出网络运营者不得泄露、篡改、毁坏其收集的个人信息,并且与第三方进行数据交易时需确保在合同中明确约定拟交易数据的范围和数据保护义务。针对以上困境,“狭义”联邦机器学习的概念于2016年由谷歌研究人员首先提出,随后成为一个解决数据孤岛问题、满足隐私保护和数据安全的一个可行性解决方案9。联邦学习的特征
13、是数据不出本地、各个参与者的身份和地位平等、它能够实现多个参与方在保护数据隐私、满足合法合规要求的前提下进行机器学习,协同地进行模型训练与结果预测,并且建模效果和将整个数据集放在一处建模的效果相同或相差不大(在各个数据的用户对齐(useralignment)或 特 征 对 齐(featurealignment)的条件下),从而实现企业间的数据融合建模,解决数据孤岛问题。“广义”联邦学习的概念,由香港科技大学杨强教授所领导的微众银行AI团队在2018年提出,将联邦学习扩展为机构和个人间的B2C模式和不同机构间B2B分布式联合建模架构,包括按样本、按特征分割以及异构多方建模,同时可以建立去中心协调
14、器的Peer-to-Peer架构形式,其设计目标是在保障大数据交换时的信息安全、保护终端数据和个人数据隐私、保证合法合规的前提下,在多参与方或多计算结点之间开展高效率,安全、可靠的机器学习和模型使用。联邦学习同时包括鼓励多方持续参与合作生态的激励机制,建立正向激励的数据价值交易市场机制。7中华人民共和国网络安全法,中共中央网络安全和信息化委员会办公室、中华人民共和国国家互联网信息办公室,http:/ Multi-PartyComputation,MPC)、同态加密(Homomorphic Encryption,HE)、差分隐私(Differential Privacy,DP)和 可 信 执 行
15、环 境(Trusted Execution Environment,TEE)等隐私计算技术相融合,进一步提升对数据的隐私保护。联邦学习与隐私计算技术的融合通常需要在模型精度、模型训练效率和数据安全性这三个维度之间进行权衡和取舍。如何能够在这三个维度上得到综合性的提升,是联邦学习的一个热点研究方向。联邦学习作为未来AI发展的底层技术,它依靠安全可信的数据保护措施下连接数据孤岛的模式,将不断推动全球AI技术的创新与飞跃。随着联邦学习在更大范围和更多行业场景中的渗透及应用,它不仅能辅助人类的工作及生活,也将逐步改变人类的认知模式,促进全社会智能化水平提升,并以“合作共赢”的模式带动跨领域的企业级数据
16、合作,有效降低技术应用的成本和门槛,催生基于联合建模的新业态,进而推动社会经济及发展12。由于目前没有关于联邦学习技术发展的权威统计,本报告将主要回顾其从2016年诞生至2020年的技术发展趋势,作为学者们了解该技术进展的重要渠道。未来我们将定期进行该技术的阶段性回顾。10Liu Y,Chen T,Yang Q.Secure Federated Transfer Learning FrameworkJ.IEEE Intelligent Systems,vol.35,no.4,pp.70-82,1 July-Aug.2020.11杨强,刘洋,程勇,康焱,陈天健:联邦学习,电子工业出版社:北京,2
17、020年:99-99.12微众银行人工智能部、鹏城实验室、腾讯研究院、中国信通院云大所、平安科技、招商局金融科技、电子商务与电子支付国家工程实验室(中国银联):联邦学习白皮书V2.0,深圳,2020年,第5-7页。8联邦学习技术研究与应用现状(一)技术研究现状3.1.1 科研论文成果现状(1)论文年度发表量不断增长基于AMiner 系统,通过关键词组13在标题和摘要中检索2016年至2020年论文数据。结果显示,研究时段内联邦学习相关论文共计2790篇,自2016年被提出以来,研究论文数量逐年增多,于2020年达到顶峰1105篇,相关论文趋势如图 2 所示。图 2 联邦学习研究论文趋势(201
18、6-2020年)(2)论文发布量以中美两国为引领根据论文作者所在机构所属国家进行排序分析,发现近五年来,联邦学习论文发布量TOP 10国家是中国、美国、英国、俄罗斯、德国、法国、澳大利亚、加拿大、印度和意大利。相关论文量较突出的国家是中国(666篇)和美国(659篇),详细信息如图 3 所示。图 3 联邦学习论文发表量TOP 10 国家(2016-2020年)13联邦学习关键词检索式:Federated Machine Learning OR Federated optimization OR federated learning OR federationlearning OR(Privac
19、y AND Distributed AND data mining)OR(Secure AND Distributed AND data mining)OR(Secure ANDMultiparty)OR(Secure AND Multi-party)OR(privacy AND Multi-party)OR(privacy AND Multiparty)OR(Privacy ANDDistributed AND machine learning)OR(Secure AND Distributed AND machine learning)OR(Privacy and joint learni
20、ng)OR(Secure and joint learning)OR(Privacy AND Distributed AND deep learning)OR(Secure AND Distributed AND deep learning)9(3)研究热点涵盖应用、系统和模型设计、安全隐私三个领域 总体研究热点总体来看,基于AMiner 系统论文的热词分析,发现2016-2020年联邦学习领域的研究热点TOP 10按热度递减依次包括:edge computing(边缘计算)、blockchain(区块链)、Internet of things(物联网)、data heterogeneity(
21、数据异质性)、communicationefficiency(沟 通 效 率)、healthcare(医疗保健)、aggregation(聚合)、wirelesscommunication(无 线 通 信)、optimization(优化)、differential privacy(差分隐私)等,如图4 所示。可见,在研究时段内,机器学习技术及相关算法模型等是联邦学习技术研究领域的主要热点,而当前较热门的激励机制在当时的热度还处于累积阶段。年度研究热点分年度来看,联邦学习研究热点从机器学习到优化、从信息统计到量子密码、从数据隐私到行业应用,学者们不断探索落地联邦学习的方法,一方面是利用交替方向
22、乘子法(ADMM)、量化、压缩等方式进行联邦学习算法优化,另一方面是引入区块链、密码学、物联网等技术建立全局共享的数据集,并对抗恶意攻击和信息泄露。同时,学者们也对多任务学习、个性化及元学习等方法进行广泛的研究来应对联邦学习中的数据的非独立同分布(Non-IID)问题。各年度研究热点具体情况如下。图 4 联邦学习领域研究热点词云图(2016-2020年)10 主要研究热点包括 differential privacy,communication efficiency,deep network,edge computing,database 等技术,关注secret sharing,quantu
23、m signature,homomorphic encryption,secure aggregation 等安全技术问题,应用领域研究以 biology medicine,healthcare 为主。此外,当时热点还包括 Support vector machine,graph computation,vertical federated learning 等。延 续 了 上 年 的 differential privacy,database,secure aggregation,communication efficiency 等研究热点,新增出现了 Multi-task learning
24、,Quantum Key Agreement,ADMM,anomaly detection,Bayesian learning,social network,collusion attack,quantum machine,reinforcement learning 等研究热点。在应用方面,healthcare 依然是联邦学习的 热 点 应 用方 向,cloud computing 和Internet of Things 和联邦学习的结合也成为研究热点。2018 年联邦学习应用相关研究热度增加并居于前列,如 healthcare,Internet of Things,biology medi
25、cine,edging computing。同 时,学 者 们 依 旧 较 关 注differential privacy,secret sharing,homomorphic encryption,Quantum Key Agreement,communication efficiency 等联邦学习安全与效率问题的研究。在这一阶段区块链“blockchain”技术成为热点,为联邦学习提供了保障用户隐私的新方法。11 2019 年,edge computing,Internet of Things,blockchain 成为热门研究领域,homomorphic encryption,secr
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2021 联邦 学习 全球 研究 应用 趋势 报告
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【宇***】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【宇***】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。