2022年联邦学习场景应用研究报告.pdf
《2022年联邦学习场景应用研究报告.pdf》由会员分享,可在线阅读,更多相关《2022年联邦学习场景应用研究报告.pdf(70页珍藏版)》请在咨信网上搜索。
1、 联邦学习联邦学习场景应用场景应用研究报告研究报告 (2022 年)年)中国信息通信研究院泰尔终端实验室中国信息通信研究院泰尔终端实验室 2022022 2 年年 2 2 月月前前 言言数据作为数字经济和信息社会的核心资源,被认为是继土地、劳动力、资本、技术之后的又一个重要生产要素,其在企业数字化转型中发挥重要作用,并对国家治理能力、经济运行机制、社会生活方式等产生深刻影响。与此同时,数据安全的重要性愈发凸显。依法采取严密的监管措施,保障数据安全无虞,有利于为数字经济发展夯实安全基础,为国家安全和公共利益保驾护航。2021年以来,中华人民共和国数据安全法、中华人民共和国个人信息保护法 相继实施
2、,个人隐私和产业机密数据保护日趋完善,在着重强调数据安全和个人信息保护的同时,完善了数据相关合规监管框架,为数据流通和使用进一步拓展了空间。与此同时,以联邦学习技术为代表的隐私计算赛道产业生态逐渐丰富,互联网厂商、初创专精型厂商、人工智能厂商等各领域企业纷纷加入,在进一步加深技术研究的同时,相关垂直领域的行业应用也逐渐丰富,形成百花齐放的行业发展态势。本报告在中国信息通信研究院前期对于联邦学习技术、产业的研究基础上,联合联邦学习产业链上下游企业,深入探讨联邦学习在政务、医疗、金融、广告、物流的应用价值,以期为数据应用价值的释放带来解读和参考。目目 录录一、联邦学习简介.1(一)数据隐私安全及孤
3、岛问题.1(二)联邦学习定义.1(三)联邦学习主要作用.2(四)联邦学习技术优势.2 二、联邦学习发展历程.3(一)传统隐私保护.3(二)联邦学习.4(三)安全联邦学习.5 三、联邦学习进阶.6(一)主要技术原理.6(二)联邦学习的分类.8(三)联邦学习模型.15(四)联邦学习能力.17(五)联邦学习流程.18 四、安全联邦学习.19(一)可信计算环境.20(二)多方安全计算.21(三)同态加密.21(四)差分隐私.22(五)安全性.23(六)性能.25 五、应用场景.27(一)政务开放.27(二)医疗应用.28(三)金融应用.38(四)数字广告.56(五)物流行业.62 六、展望.63(一)
4、政策引导、持续释放行业红利.63(二)凝聚共识、加速应用场景探索.64(三)标准建设、加强平台互联互通.64 图图 目目 录录图 1 传统机器学习和联邦学习的对比.3 图 2 联邦学习的两种架构模式.7 图 3 横向联邦学习数据分割示例.9 图 4 纵向联邦学习数据分割示例.10 图 5 迁移学习数据分割示例.11 图 6 联邦学习参与方的数据网络结构.13 图 7 VTE 数据分析示例.33 图 8 隐私保护的跨国川崎病研究.34 图 9 医学影像学深度分析引擎技术架构.35 图 10 FedCIE:电子病历结构化联邦学习框架.37 图 11 全业务信贷风控流程示意图.40 图 12 银行联
5、邦反欺诈方案示意图.43 图 13 基于隐私计算的营销风控平台级解决方案.45 图 14 应用隐私计算后的营销风控场景表现.46 图 15 银保营销方案示意图.50 图 16 银保营销方案示意图.55 图 17 联邦学习 AI 联合建模应用于广告投放场景.59 图 18 多方数据融合反作弊模型.60 表表 目目 录录表 1 不同隐私保护计算技术的安全能力范围.25 表 2 隐私保护的不同技术路线.26 联邦学习场景应用研究报告(2022 年)1 一、一、联邦学习简介 (一一)数据隐私安全及孤岛问题数据隐私安全及孤岛问题数据孤岛普遍存在于所有需要进行数据共享和交换的系统之间,包括不同部门之间的数
6、据信息能不能共享、不同公司之间的数据信息能不能共享,以及不同产业之间的数据能不能共享等等。在 2019 年中国互联网协会对外公布的中国网民权益保护调查报告显示,在 2019 年,七成左右的网民个人身份信息和个人网上活动信息均遭到泄露。78.2%的网民个人身份信息(姓名、学历、家庭住址、身份证号及工作单位等)被泄露;63.4%的网民个人网上活动信息(通话记录、网购记录、网站浏览痕迹、IP 地址、软件使用痕迹及地理位置等)被泄露。近半数的网民个人通讯信息(即时通讯记录、手机短信等)被泄露。2019 年因个人信息泄露导致诈骗信息、诈骗消息等原因,导致网民总体损失约 805 亿元。2021年以来,关于
7、用户隐私泄露、数据违规的负面事件频发,公众对于数据安全和隐私保护越发关注。数据安全法个人信息保护法 等相关法律法规的颁布和实施也从法律层面为数据安全和个人隐私提供了根本保障,同时也促进了以联邦学习为代表的隐私行业的飞速发展。(二二)联邦学习定义联邦学习定义联邦学习(Federated Learning)本质是一种分布式机器学习框架,它做到了在保障数据隐私安全及合法合规的基础上,实现数据共享,共同建模。它的核心思想是在多个数据源共同参与模型训练时,不需联邦学习场景应用研究报告(2022 年)2 要进行原始数据流转的前提下,仅通过交互模型中间参数进行模型联合训练,原始数据可以不出本地。这种方式实现
8、数据隐私保护和数据共享分析的平衡,即“数据可用不可见”的数据应用模式。(三三)联邦学习主要作用联邦学习主要作用随着信息化社会的发展,各行业积累了大量的数据,这些数据掌握在不同的实体手中,受技术、安全和监管等的限制,无法有效的分享融合,形成一个个独立的数据孤岛;而互联网和移动互联网时代的发展,加速了数据的碎片化。数据里面蕴含着重要模式(Pattern),如人类生物特征、喜好、金融信用等等。通过机器学习技术可以挖掘数据中蕴藏的这些模式,这些经过大量数据训练出来的机器学习模型已经应用在各行各业,例如医疗行业的临床辅助诊断、新药物研发、精准医疗;安全行业的人像识别、声纹识别等等。在这些应用中,模型的精
9、度至关重要,而模型的精度核心依靠训练数据,只有经过大量数据的训练,才可能获得好模型。另一方面,由于法律政策监管、数据隐私安全等方面的顾虑,各数据所有者也不愿直接交换原始数据,导致数据无法有效汇聚,从而影响机器学习的效果,制约着 AI 模型的提高。联邦学习正是为了解决这一两难情况而出现的高效技术解决方案。(四四)联邦学习技术优势联邦学习技术优势传统的机器学习需要将数据汇聚到中心后才可以进行模型训练。在此过程中需要转移存储原始数据,随着数据量的增加,相对的成本也呈指数级增加;同时,在数据出域后,数据将变得不可控,从而导联邦学习场景应用研究报告(2022 年)3 致数据隐私泄露,埋下数据安全隐患。图
10、 1 给出了传统机器学习和联邦学习的对比。联邦学习技术,可以实现多个机构间构建统一的数据安全、高效、合规的多源数据应用生态系统,实现跨机构的数据共享融合,通过系统扩大样本量、增加数据维度为大数据应用提供高精度模型构建的有力支撑,进而提供更丰富、高质量的大数据服务,为社会发展创造更多价值。来源:中国信息通信研究院 图 1 传统机器学习和联邦学习的对比二、联邦学习发展历程(一一)传统隐私保护传统隐私保护传统的隐私保护手段包括数据脱敏、假名化、数据消隐等。数据脱敏是信息从原始环境向目标环境交换过程中,对数据中的某些敏感信息进行一定规则的数据变形,其核心是通过剔除数据中能识别出个体的所有特征,从而达到
11、隐私保护的目的。在涉及商业机密和个人隐私数据时,在不违反相关规则的条件下,对原始数据进行改造后才可提供使用,如个人姓名、手机号、身份证号、企业财务数据、税务、联邦学习场景应用研究报告(2022 年)4 供应链等机密数据,都需要进行脱敏处理。数据脱敏常用方法有泛化技术、抑制技术、扰乱技术、有损技术等,目前,各企事业单位,尤其政府部门均建立健全了数据脱敏的规范,数据脱敏已成为数据处理的标准流程。数据消隐和脱敏类似,但又与脱敏不同的是,数据消隐并不会直接剔除敏感的标识符或准标识符,而是通过泛化或抑制来消除数据中能够直接识别个体的部分,以避免隐私泄露。主流实现技术包括 K-匿名、L-多样性、T-亲密度
12、以及近年发展起来的差分隐私。然而,大量研究表明,这些传统的数据保护技术其保护能力并不完善,并不能完全保证数据的隐私安全,仍然存在系统性的漏洞使其隐私保护能力大打折扣。此外,由于对原始数据的处理,在很多场景中处理后的数据并不能满足应用的需求。例如生物信息的基因数据,包含了独特的遗传标记,这些信息可用于家族血缘搜索,通过将脱敏后的受试者与身份已知的远亲联系起来,还是可以识别受试者身份。因此,基因数据脱敏不足以保护隐私,我们需要更完善高效的技术解决数据共享过程中的隐私安全问题。(二二)联邦学习联邦学习为了让数据共享更简易,同时又能保障数据安全,出现联邦学习技术框架。它可以做到在数据不流动的前提下进行
13、数据融合共享与价值挖掘。联邦学习进行模型训练时,需要根据数据来源对任务进行分解,多个分中心在本地利用各自数据资源进行分布模型训练,相互独立又联邦学习场景应用研究报告(2022 年)5 彼此协作。它的技术理论基础可追溯到分布式数据库(distributed database)联合分析技术,Cheung 等人在 1996 年提出了分布式数据库中实现关联规则(Association Rules)挖掘。因为联邦学习涉及到数据源分布形态的不同,比如有些联邦网络中数据源之间样本上的重叠度比较多,有些则在特征属性结构上比较一致。根据不同的数据源分布联邦学习采用的分布式算法逻辑也有差异。例如,2006 年,Y
14、u等人提出了带有隐私保护的分布式支持向量机建模,并支持处理横向和纵向分割的数据场景。联邦学习在与产业的融合上最先是医疗领域。2013 年,王爽教授团队首次发表全球第一篇联邦学习论文,正式提出了分布式隐私保护与在线学习等概念,解决了医疗领域多中心合作难题,其成果被应用于国家级生物医疗健康数据网络中,用于保护数十家医共体中的数千万病人的数据隐私。之后,联邦学习在其它领域的应用也取得了显著性进展,如 2016年起,谷歌在其安卓手机端实现带有隐私保护的横向联邦学习,用于保护手机用户数据隐私。此后,杨强教授在 2019 年通过将迁移强化学习与联邦学习进行结合,服务于自动驾驶场景。(三三)安全联邦学习安全
15、联邦学习联邦学习虽然只传递中间计算结果,保障了原始数据的安全性。但在有些情况下,中间参数如果被攻击,还是能够还原出原始数据,因此也存在一定的安全隐患。为了弥补普通联邦学习技术中存在的补足,学术界和工业界提出了安全联邦学习。分别采用了不同的解决方案。其中基于硬件的可信联邦学习场景应用研究报告(2022 年)6 计算方案,可以保护整个计算过程安全可靠。基于同态加密或多方安全计算的密码学方案可以保障中间参数及结果发放不被攻击。而基于差分隐私的统计学方案则保证了过程与结果数据的安全性,但同时也引入了一定的计算误差。不同技术路线的保护能力、计算能力和安全信任模式也不尽相同。安全联邦学习综合利用上述技术,
16、可以补足普通联邦学习中对于计算过程和最后结果的隐私保护缺失,为数据流通全链路提供隐私保护。同时,经过算法优化,能够处理海量数据,满足特定业务场景的需求。三、联邦学习进阶(一一)主要技术原理主要技术原理联邦学习是一种在计算过程中分享中间统计结果而不泄露原始数据的分布式算法框架,实现了数据在多中心协同计算中的隐私保护。其特点是在保护原始数据隐私安全的同时,又能保证计算结果准确性和精度。联邦学习一般认为有两种架构:客户端/服务器模式(图 2.a)和去中心化模式(图 2.b)。联邦学习场景应用研究报告(2022 年)7 来源:杭州锘崴信息科技有限公司 图 2 联邦学习的两种架构模式 客户端/服务器模式
17、一般适用于预测全局模型参数和开展各种统计学检验。目前这种方式比较常见。它的本质是在中心节点的主导下,各节点协同分布式计算,在联邦学习的训练过程中,各个参与方拥有基于其本地数据生成的本地梯度,通过反复交换各参与方的本地梯度来实现全局模型参数的更新,并直到模型参数收敛,具体每一轮的迭代过程可分为如下几步:a.参与方在本地进行基于原始数据的隔离计算,各自使用本地样本完成模型的更新,发送加密的梯度到聚合服务器。b.聚合服务器对各方的梯度进行聚合,根据各个客户端的本地统计结果更新全局模型参数。c.聚合服务器把聚合更新后的梯度发送给各个参与方。d.各个参与方使用收到的新梯度更新本地模型参数。联邦学习场景应
18、用研究报告(2022 年)8 这里示例中传递的是梯度,也可以是模型参数或者其它模型中间计算结果。设计合理的梯度的聚合方式和模型拆分方式不会影响最终的模型精确度。去中心化模式使用于各种分布式算法,比如稀疏线性回归,主成分分析以及支持向量机等等。其特点在于不需要中心服务器,各个相邻的客户端不断交换本地计算的中间结果,进而得到进度可靠的全局计算结果。无论哪种架构,联邦学习实体之间只传输中间结果,中间结果不涉及任何原始数据信息,从而实现了敏感数据的隐私保护。(二二)联邦学习的分类联邦学习的分类 1.按数据本部模式(1)横向联邦学习 横向联邦学习的本质是样本的联合,适用于参与机构间业态相同但触达客户不同
19、场景,这种情况往往特征重叠多,用户重叠少(如图3 所示)。比如罕见病研究中,每个医院病例的数据维度基本一致,但它们分别有自己不同的病人,并且病例样本有限,通过联邦学习可以让这些来自不同机构的样本在保障隐私的前提下共享,提高模型训练的能力。又如,不同地区的银行间,他们的业务相似,但用户不同。联邦学习场景应用研究报告(2022 年)9 来源:中国信息通信研究院 图 3 横向联邦学习数据分割示例(2)纵向联邦学习 纵向联邦学习的本质是特征的联合,适用于各参与机构间用户重叠多,特征重叠少的场景(如图 4 所示)。比如同一地区的银行、电商公司、运营商。他们的用户集可能包含该区域的大多数居民,但银行记录了
20、用户的收支行为相关数据,电子商务保留了用户的购买行为相关数据,运营有用于的未知数据,所以其特征空间有很大的不同。假设我们希望基于用户的购买、收支、位置数据进行信用等级评估,需要融合三方数据做回归模型。纵向联邦学习是将这些不同的特征聚合在一起,以一种隐私保护的方式计算训练损失和梯度的过程,以便用双方的数据协作构建一个模型。联邦学习场景应用研究报告(2022 年)10 来源:中国信息通信研究院 图 4 纵向联邦学习数据分割示例(3)迁移学习 迁移联邦学习适用于两个数据集的重叠较少,不仅样本不同,而且特征空间也有很大差异的场景下(如图 5 所示)。比如两个机构,一个是位于北京的电商平台,一个是位于杭
21、州的物流公司。由于地域限制两个机构的用户群交叉点小,由于业务不同,双方的特征空间重叠也少。这种情况下可以利用迁移学习来克服数据与标签的不足,需要从公共样本获取公共表示,用于获取具有单侧特征的样本预测。迁移学习是对现有联邦学习的一个重要扩展。联邦学习场景应用研究报告(2022 年)11 来源:中国信息通信研究院 图 5 迁移学习数据分割示例 2.按拓扑结构 拓扑结构是指分布式系统中各个计算单元之间的物理或逻辑的互联关系。如图 6 所示,联邦学习按其参与方的数据网络结构主要可分为:星状结构、环状结构和点对点结构。(1)星型结构 星型拓扑结构中,联邦学习网络的各参与者通过点到点的方式连接到一个中央节
22、点上。该中央节点作为协调者与公信方向目标节点传送信息。中央节点执行通信控制策略,任何两个节点的通信都要经过中央节点。目前大部分联邦学习系统是基于星状网络结构进行部署,即包括本地计算节点和全局协同服务节点。它在联邦学习中的作用在联邦学习场景应用研究报告(2022 年)12 于全局协调本地节点,协助它们本地模型更新,进行计算任务分发以及最终模型结果的汇集。它有如下两点:a.控制简单。任何参与方只与中央节点通信,访问协议与介质访问控制方法都很简单。b.故障诊断与隔离都很容易。中央节点对地方节点可以逐一隔离进行故障检测,单个参与方故障不会影响全局。问题主要是对中心节点的依赖太大,以及随着网络规模的扩大
23、节点维护与协调成本线性增长。所以它比较适用于小型网络。(2)环形结构 但是在有些情况下由于网络条件或者应用场景的限制,无法使用全局协同节点,环形联邦学习1模式也被提出。环形结构是使用一个连续的环将每个节点连接在一起,没有中心节点。它能够保证一各节点上发送的信号可以被环上其他所有的节点都看到。环形结构的优势就是实现简单,对网络条件要求低,劣势就是使用场景有限,没法做复杂的协同任务。在简单的环形网中,网络中任何部件的损坏都将导致系统出现故障,这样将阻碍整个系统进行正常工作。而具有高级结构的环形网则在很大程度上改善了这一缺陷。1J.-W.Lee,J.Oh,S.Lim,S.-Y.Yun,and J.-
24、G.Lee,“TornadoAggregate:Accurate and Scalable Federated Learning via the Ring-Based Architecture,”arXiv cs.LG,Dec.06,2020.Online.Available:http:/arxiv.org/abs/2012.03214 联邦学习场景应用研究报告(2022 年)13(3)点对点 点对点联邦学习2跟环形结构一样实现了去中心化,联邦网络之间的各参与者都处于对等的地位,有相同的功能,无主次之分,一参与者既可作为业务方,发起建模和推理研究,也可作为特征方,提供数据源。它具有以下的优势:
25、a.不需中央节点,可在网路的各个节点共享内容和资源。b.易于扩展,不受结构限制,也不存在增加中央节点的协调维护成本。c.参与方的资源和算例普遍不会有太大差别,资源利用率较高。点对点联邦学习实现了去中心化的联邦学习范式,但是其也引入了很大的计算和通讯的成本,要想保证计算性能与客服安全隐患对结构性设计要求较高。比较使用于大型网络。来源:杭州锘崴信息科技有限公司 图 6 联邦学习参与方的数据网络结构 2 S.Warnat-Herresthal et al.,“Swarm Learning for decentralized and confidential clinical machine lear
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2022 联邦 学习 场景 应用 研究 报告
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【Stan****Shan】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【Stan****Shan】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。