1、联邦学习(FL,federated learning)是一种新兴的分布式机器学习技术,利用分散在各个机构的数据,通过传输中间结果(如模型参数、参数梯度、嵌入信息等)实现机器学习模型的联合构建。联邦学习中机构的训练数据不允许离开本地,因此降低了数据泄露的风险。根据机构之间数据分布的差异,FL 通常分为横向联邦学习(HFL,horizontal FL)、纵向联邦学习(VFL,vertical FL),以及联邦迁移学习(TFL,transfer FL)。其中,VFL 适用于机构具有相同样本空间但不同特征空间的场景,广泛应用于医疗诊断、金融评估和教育服务等领域。尽管 VFL 在现实应用中有出色的表现,
2、但其本身仍然面临诸多隐私和安全问题,尚缺少对 VFL 方法与安全性展开全面综述的工作。为了构建高效且安全的 VFL 系统,从VFL 方法及其隐私和安全两个方面展开,首先从边缘模型、通信机制、对齐机制以及标签处理机制4个角度对现有的VFL方法进行详细总结和归纳;其次介绍并分析了 VFL 面临的隐私和安全风险;进一步对其防御方法进行介绍和总结;此外,介绍了适用于 VFL 的常见数据集及平台框架。结合 VFL 面临的安全性挑战给出了VFL 的未来研究方向,旨在为构建高效、鲁棒和安全的 VFL 的理论研究提供参考。关键词:纵向联邦学习;安全与隐私;后门攻击;推断攻击与防御;对抗攻击;安全性评估 中图分
3、类号:TP18 文献标志码:A DOI:10.11959/j.issn.2096109x.2023017 Survey on vertical federated learning:algorithm,privacy and security CHEN Jinyin1,2,LI Rongchang2,HUANG Guohan2,LIU Tao2,ZHENG Haibin1,CHENG Yao3 1.Institute of Cyberspace Security,Zhejiang University of Technology,Hangzhou 310023,China 2.College
4、of Information Engineering,Zhejiang University of Technology,Hangzhou 310023,China 3.TV SD Asia Pacific Pte.Ltd.,60993,Singapore 收稿日期:20220316;修回日期:20220820 通信作者:陈晋音, 基金项目:国家自然科学基金(62072406);浙江省自然科学基金(DQ23F020001);信息系统安全技术重点实验室基金(61421110502);国家重点研发计划(2018AAA0100801)Foundation Items:The National Nat
5、ural Science Foundation of China(62072406),Zhejiang Provincial Natural Science Foun-dation(DQ23F020001),The National Key Laboratory of Science and Technology on Information System Security(61421110502),The National Key R&D Program of China(2018AAA0100801)引用格式:陈晋音,李荣昌,黄国瀚,等.纵向联邦学习方法及其隐私和安全综述J.网络与
6、信息安全学报,2023,9(2):1-20.Citation Format:CHEN J Y,LI R C,HUANG G H,et al.Survey on vertical federated learning:algorithm,privacy and securi-tyJ.Chinese Journal of Network and Information Security,2023,9(2):1-20.2 网络与信息安全学报 第 9 卷 Abstract:Federated learning(FL)is a distributed machine learning technolog
7、y that enables joint construction of machine learning models by transmitting intermediate results(e.g.,model parameters,parameter gradients,embedding representation,etc.)applied to data distributed across various institutions.FL reduces the risk of privacy leakage,since raw data is not allowed to le
8、ave the institution.According to the difference in data distribution between institutions,FL is usually divided into horizontal federated learning(HFL),vertical federated learning(VFL),and federal transfer learning(TFL).VFL is suitable for scenarios where institutions have the same sample space but
9、different feature spaces and is widely used in fields such as medical diagnosis,financial and security of VFL.Although VFL performs well in real-world applications,it still faces many privacy and security challenges.To the best of our knowledge,no comprehensive survey has been conducted on privacy a
10、nd security methods.The existing VFL was analyzed from four perspectives:the basic framework,communication mechanism,alignment mechanism,and label processing mechanism.Then the privacy and security risks faced by VFL and the related defense methods were introduced and analyzed.Additionally,the commo
11、n data sets and indicators suitable for VFL and platform framework were presented.Considering the existing challenges and problems,the future direction and development trend of VFL were outlined,to provide a reference for the theoretical research of building an efficient,robust and safe VFL.Keywords
12、:vertical federated learning,security and privacy,backdoor attack,inference attack and defense,adversarial attack,security evaluation 0 引言 随着计算资源和训练数据的规模大幅提升,机器学习1在众多领域得到快速发展,如医疗诊断、金融评估和教育服务等。近年来,出于对数据隐私的保护,许多国家与地区出台数据保护法规限制数据的采集和直接传输。例如,2021 年6 月,我国出台的中华人民共和国数据安全法2明确要求对个人隐私、个人信息以及保密商务信息等数据应当依法予以保密,
13、不得泄露或者非法向他人提供。2018 年 5 月,欧盟出台的法案通用数据保护条例3对数据进行严格管理,保证数据隐私安全。受限于此类隐私保护法规,拥有数据的机构之间无法直接通过交换隐私数据的方式集中训练机器学习模型,从而形成了数据孤岛现象,并极大地制约了机器学习的性能。如何在保护数据隐私的前提下,满足机构之间联合训练机器学习模型,是当下亟待解决的问题。为了解决以上难题,Hord4提出了联邦学习(FL,federated learning),通过聚合机构之间共享中间数据结果(边缘模型或者嵌入层)的方式联合训练机器学习模型。由于联邦学习在训练过程中的数据始终不离开数据拥有者,因此降低了机构在联合训练
14、阶段隐私泄露的风险,满足数据隐私法规的要求。根据机构之间数据分布的差异5,联邦学习可以分为横向联邦学习(HFL,horizontal FL)、纵向联邦学习(VFL,vertical FL)和联邦迁移学习(TFL,transfer FL)。为了清晰呈现上述 3种联邦学习技术各自适用的场景,图 1 展现了纵向联邦学习中的参与者在不同场景下进行联邦学习的数据示意。两个矩阵分别表示两个参与者的数据空间,其中矩阵的长表示参与者的数据特征空间维度,矩阵的宽表示参与者的数据样本空间维度。横向联邦学习适用于参与者之间的数据集具有相同的特征空间但是不同样本空间的场景5(如图 1(a)所示)。例如,两家来自不同地
15、区的银行希望共同训练一个机器学习模型,提供贷款精准推销业务。一方面,这两家银行具有相似的业务,被视作具有相同的数据特征空间;另一方面,它们来自不同的地区,因此他们的样本空间不同。横向联邦学习为上述场景提供了联合训练的解决方案。纵向联邦学习适用于参与者之间的数据集具有相同的样本空间但是不同特征空间的场景5(如图 1(b)所示)。例如,来自同一个地区的银行和电子商务公司希望共同训练一个机器学习模型,为电子商务公司提供精准推荐服务。一方面,这两家机构具有不同的业务空间,因此具有不同的用户特征空间;另一方面,它们来自同一个地区,因此具有相似的样本空第 2 期 陈晋音等:纵向联邦学习方法及其隐私和安全综
16、述 3 间。纵向联邦学习为上述场景提供联合训练的解决方案。联邦迁移学习适用于参与者之间的数据集具有样本空间和特征空间都不同的场景5(如图 1(c)所示)。例如,一家机构是位于 A 省的电子商务公司,另一家是位于 B 省的金融机构,联合构建机器学习模型。一方面,由于地理限制,这两个机构具有很少的用户交集;另一方面,两家机构的业务不同,因此具有的特征空间不相同。联邦迁移学习为上述场景提供解决方案。图 1 联邦学习场景 Figure 1 Federated learning scenarios 现有与联邦学习相关的综述论文主要关注横向联邦学习6-7,国内外尚未有相关综述论文针对纵向联邦学习及其隐私和
17、安全现有研究技术进行归纳总结。随着现实场景中来自不同领域的机构之间商务合作日益紧密,纵向联邦学习的应用8-9日益广泛,其方法及隐私和安全问题得到了学术界和工业界的高度关注。因此,本文基于国内外纵向联邦学习的研究现状,对纵向联邦学习方法及其隐私和安全问题进行梳理和归纳,并指明一些纵向联邦学习未来可能的研究方向。值得一提的是,本文涉及的参考文献的开源代码和论文资源已经整理并公开到 GitHub,方便更多学者对纵向联邦学习开展深入研究。纵向联邦学习在众多现实场景得到广泛应用,得益于现有研究提出的众多纵向联邦学习算法。随着纵向联邦学习技术的发展,边缘模型支持处理的数据模态由文本和图像向时序和网络模态扩
18、展;通信机制由同步通信逐渐向异步通信发展;样本对齐方法由简单的秘密求交集技术向引入了半监督学习10以及相似度匹配11技术的样本对齐技术发展。随着纵向联邦学习在众多领域的应用,其暴露的隐私和安全问题逐渐成为学术界和工业界研究的热点。尽管纵向联邦学习在训练过程中用户的原始数据没有离开本地,但一些现有的研究表明其仍然存在隐私泄露的风险,如常见的属性推断攻击12、标签推断攻击13以及数据重构攻击14等。另外,对于纵向联邦学习存在的安全风险,Liu 等15表明纵向联邦学习中恶意的客户端可以通过操纵梯度或训练数据发动后门攻击。例如,攻击者在训练阶段通过将带有特殊标识(即后门触发器)的“停车”图像注入训练集
19、参与纵向联邦学习的训练。纵向联邦学习系统在推理阶段,会对携带后门触发器的恶意停车标志产生错误的预测结果。为了提高纵向联邦学习的隐私性与安全性,已有研究提出各种防御方法,基本可分为 3 类:基于加密、基于扰动以及基于对抗训练的防御方法。这些防御方法具体包括同态加密技术、秘密共享技术、差分隐私技术、梯度压缩技术以及对抗训练技术等。综上所述,为了进一步保障纵向联邦学习方法的安全应用,本文针对已有的纵向联邦学习方法及其隐私和安全研究工作展开系统梳理、归纳与分析。1 纵向联邦学习方法 1.1 预备知识 1.1.1 概念及定义 纵向联邦学习是一种新兴的分布式机器学习技术,其利用分散在各个机构的数据集,通过
20、传输中间结果(如模型参数、模型梯度、嵌入信息4 网络与信息安全学报 第 9 卷 等)来联合构建机器学习模型。VFL 适用于参与者之间的数据集共享相同的样本空间但不同特征空间的场景。假设当前有m个参与者1,mPP,其本地数据为1,mDD,标签为 y。数据集中的每一行对应一个样本,每一列对应一个特征。从参与者的边缘模型为m,主参与者或协调者具有的顶端模型为T。VFL的优化目标表述为 ()11,Min,;,mTmTfD y(1)其中,()f 为预测的损失函数。1.1.2 参与者角色 主参与者:VFL中提供标签和特征信息的参与者。在现实应用场景中,主参与者往往发布VFL的主任务。从参与者:VFL中仅提
21、供特征信息的参与者。参与VFL训练过程中,其提供特征信息。协调者:负责协调VFL的训练过程,并在数据加密的场景中提供解密功能。在现实应用场景中,协调者的角色通常由主参与者兼任。1.2 VFL 边缘模型 VFL支持的边缘模型通常包括线性回归模型、逻辑回归模型、树模型及神经网络等。接下来的小节按照这4种不同边缘模型,对VFL框架进行介绍。1.2.1 基于线性回归模型的VFL Yang等5提出一种基于线性回归的VFL框架,其中参与者采用线性回归模型。为了将数据从一方安全地传输到另一方,该框架采用了加法同态加密技术。VFL训练过程中,协调者首先创建加密对,并为参与者A和参与者B发送公钥,之后参与者A为
22、参与者B发送中间加密结果Aiu,其中表示加法同态加密,参与者A的模型参数为A,参与者B的模型参数为B。参与者B同时进行加密交换梯度,并向协调者发送损失值,L表示损失函数。然后,参与者A和B分别计算各自加密的梯度AL以及BL并添加加密的掩码AR和掩码BR,发送给协调者添加掩码 后 的 加 密 结 果AAR+L和BBR+L。最后,协调者解密梯度并返回解密后的梯度信息AAR+L和BBR+L给参与者A和B。依次迭代,完成纵向联邦学习训练。上述线性纵向联邦学习算法为了避免协调者直接获得参与者的梯度信息,通过添加附加掩码来保护参与者的梯度信息。1.2.2 基于逻辑回归模型的VFL Hardy等16提出了一
23、种基于随机梯度下降的纵向逻辑回归框架,两个参与者A和B在每次迭代时交换加密的中间结果计算梯度。首先参与者A计算中间结果并获得加密后的梯度信息;然后,参与者B同时反馈中间计算信息给协调者;最后,协调者利用随机梯度下降方法获得参与者的梯度信息。该框架为了不将明文数据从一方传输到另一方,同样采用加法同态加密技术。利用加法同态加密计算两个加密数字的加法以及一个未加密数字和一个加密数字的乘积。然而,损失函数及其梯度不能直接使用加法同态加密进行计算。针对这个问题,Yang等17采用Taylor近似法来优化损失函数,使其适用于加法同态加密。文献16-17设定VFL中具有可信的第三方协调者,然而这种可信的协调
24、者现实场景中往往很难得到保证,会带来潜在的安全风险。因此,Yang等18提出了一个去除协调者的逻辑回归纵向联邦学习方法。参与者采用参数服务器体系结构,其中包括一个集中的参数服务器和一组工作节点。工作节点之间没有连接,工作节点只能与其相应的参数服务器通信。参与者之间的唯一通信通道存在于各自对应的参数服务器之间。由于去除了VFL中的协调者,大大降低了系统的复杂性,并且从根本上避免了协调者带来的安全和隐私泄露威胁。1.2.3 基于树模型的VFL Cheng等19提出了一种无损的隐私保护树集成系统SecureBoost,其中,VFL中边缘模型为树模型。SecureBoost的优点为它提供了与非隐私保护
25、方法相同的主任务性能,同时不泄露每个参与者的隐私数据。对于决策树联邦模型的分割方式,它从深度为0的树开始,并为树的每个叶节点添加一个拆分,直到达到最大第 2 期 陈晋音等:纵向联邦学习方法及其隐私和安全综述 5 深度。SecureBoost假设执行期间的一些中间结果可以以明文形式显示,这种中间结果可能被攻击者利用,以推断参与者数据中的敏感信息。针对上述问题,Wu等20提出一种基于决策树的保护VFL中间结果隐私安全的Pivot框架。Pivot的核心采用阈值部分同态加密(TPHE,threshold partially homomorphic encryption)和安全多方计算(SMC,secu
26、re multi-party computa-tion)。这两种加密技术在VFL中相互补充,TPHE在通信成本方面相对有效,但只能支持一组限制性计算。SMC可以支持任意计算,但会产生昂贵的通信开销。Pivot尽可能多地使用TPHE来促进客户端的本地计算,并且仅在TPHE功能不足的地方调用SMC。此外,Pivot引入差分隐私技术加强对数据隐私的保护。1.2.4 基于神经网络的VFL Vepakomma等21在人工神经网络的基础上提出了一种分裂学习,这同样适用于VFL。在前向传播中,客户端利用边缘模型使用本地数据训练输出剪切层。剪切层的输出被发送到协调者,协调者完成剩余的训练。在反向传播过程中,协
27、调者从最后一层反向传播到剪切层,剪切层的梯度被发送回客户,其余的反向传播先在客户端完成。现有研究13,22采用分裂学习思想的VFL框架,用于广告推荐或物体识别领域。为了将VFL适用于处理图数据,Ni等23提出基于图卷积神经网络的VFL框架。同时引入了同态加密技术保护VFL的隐私安全。类似地,Zhou等24提出了一种适用于节点分类任务的纵向图神经网络(VFGNN)框架,可以推广到现有的图神经网络(GNN)模型。框架的训练过程中,参与者采用安全多方计算和差分隐私技术。首先协同使用私有节点特征信息计算GNN的初始层,然后单独使用私有边缘信息执行邻域聚合,最后得到局部节点嵌入,聚合策略分为3种。(1)
28、拼接策略 拼接操作符可以完全保留从不同被动参与者学习到的本地节点嵌入。具体地,中间嵌入信息按照设定维度进行拼接形成聚合后的嵌入特征。CONCAT(1),(2),()KKKKvvvvI=hhhh(2)其中,()KvIh表示联邦学习中的各个参与方上传的嵌入特征。(2)平均策略 平均算子取中间嵌入信息元素h的平均值,通常适用于参与者数据对全局节点嵌入的贡献相等。MEAN(1)(2)()=KKKKvvvvIhhhh(3)(3)回归策略 通过回归模型将数据持有者的中间嵌入信息组合起来,在训练过程中自动学习回归模型的参数。12(1)(2)()KKKKvvvIvI=+hhhh(4)其中,为回归模型的参数。然
29、后,协调者组合来自数据持有者的本地节点嵌入并生成全局节点嵌入,在此基础上协调者可以执行连续的非私有数据计算,其损失函数为 ()lnvvcvcv y c CLyy=-(5)其中,vcy 为训练节点vy 预测标签,vcy 为训练节点真实标签。在VFGNN框架中,隐私数据和模型都由参与者本地持有,只有嵌入表示在训练过程中进行传输,并且传输的嵌入信息被添加差分隐私噪声进行加固,可保证数据隐私安全。1.2.5 小结 众多VFL边缘模型的研究使得其能够适用于多种模态的数据。为了避免传输过程中的数据直接泄露,通常使用同态加密或安全多方计算加密手段保护中间数据。此外,边缘模型为神经网络的VFL中通常设定第三方
30、协调者具有顶端模型,具有信息二次融合提取的能力;而当边缘模型为其他类型时,协调者只起到解密和计算梯度的作用。1.3 VFL 通信机制 VFL训练通信过程中存在的问题主要有:不同参与者的计算能力和通信能力有差别,形成“短板效应”;模型收敛速度慢;通信过程中存在大量冗余数据;通信时延。为此,现有针对VFL的研究从4个方面降低通信代价,其中包括基于异步更新、基于拟牛顿法、基于梯度压缩及基于直接内存访问。本节对每一种方法进行详细分析。1.3.1 基于异步更新的VFL 常见的采用同步更新机制的VFL,存在通信6 网络与信息安全学报 第 9 卷 能力强的参与者等待计算能力弱的参与者的问题,形成“短板效应”
31、。为了解决上述问题,异步更新采用多次本地局部更新策略以及异步聚合策略减小训练通信代价,减少设备闲置时间。Gu等25提出了3种异步纵向联邦随机梯度下降算法,分别为AFSGD-VP、AFSVRG-VP以及AFSAGA-VP。异步纵向联邦随机梯度下降算法减少了以往同步联邦的等待消耗时间,然而其要求客户端每次参数更新都和协作方建立通信联系,消耗较多的计算资源。受横向联邦学习中的联邦平均算法26启发,Liu等27提出了一种联邦随机块坐标下降(FedBCD,federated stochastic block coordinate descent)算法,核心思想是纵向联邦学习中每一个参与者在每次通信之前进
32、行多次局部更新,以减少参与者之间的通信轮数。类似地,Chen等28提出一种适用于客户端间歇性训练的纵向异步联邦学习算法,通过建立主动方的查询机制,实时响应来自客户端的异步训练更新模型请求。上述工作的局限性在于只适用于数据集由单独一块存储器进行保存,且隶属于单个客户机。因此,上述工作不适用于数据分散在多个客户机的现实场景。为了解决这个问题,Das等29提出一种分层分散坐标下降(TDCD,tiered decentralized coordinate descent)算法,存储器之间执行并行坐标下降算法,在每个存储器内的客户端底层执行分布式随机梯度下降算法,其每个通信轮次中包含多个局部更新。存储器
33、中的客户端在其本地数据集上对这些参数进行多次迭代。然后仓库协调者聚合客户机模型以更新其参数块。此外,在本地局部更新中,客户机需要从其他的客户机中请求中间嵌入数据,仓库协调者响应并协助中间信息交换。通过分层网络的结构来解决多个不同客户机进行纵向联邦学习的需求。相较于同步更新机制,纵向联邦学习采用异步更新具有以下优势。1)客户端参数更新无须等待其他参与者,计算资源利用率高,避免短板效应。2)增加模型的泛化能力,容错性更强,可以有效应对部分客户端设备宕机的问题。3)引入局部更新机制,减少了通信次数。1.3.2 基于拟牛顿法的VFL 基于拟牛顿法的VFL核心思想是使用二阶Hessian矩阵梯度下降代替
34、一阶梯度下降,加快模型收敛进而减少通信轮次。直接对Hessian矩阵求逆会带来很大时间成本,Wright等30提出了一种拟牛顿算法(L-BFGS),通过直接逼近Hessian矩阵求逆降低计算成本。然而,经典的拟牛顿法并不适用于VFL数据分布的场景。因为经典的L-BFGS算法通过计算两个连续迭代之间梯度和模型参数,在最后一次迭代中使用历史信息来获得估计Hessian矩阵的逆,适用于完整数据而非小批量数据。VFL中客户端的数据较小,会导致估计的Hessian矩阵不稳定。为此,Yang等17提出了一种基于拟牛顿法的逻辑回归纵向联邦学习框架。Hessian矩阵信息可以每轮迭代更新一次,提高拟牛顿算法的
35、稳定性。尽管基于Hessian矩阵子采样具有很好的稳定性,但通信代价很高。这主要有两方面原因:一方面是估计Hessian矩阵的过程中需要在每轮迭代过程中传输大量的梯度差值;另一方面是算法采用同步计算,迭代过程中需要大量等待时间。为此,Zhang等31提出了一个基于异步拟牛顿的VFL框架AsySQN。AsySQN利用近似Hessian信息获得更好的下降方向,提高实际收敛速度。客户端根据局部参数差值来计算近似的局部Hessian信息,以避免因传输梯度差而产生的高通信成本。此外,为了使其应用于现实中具有不平衡计算资源的VFL系统,采用了异步并行化的随机拟牛顿算法。这种异步化的随机拟牛顿纵向联邦学习算
36、法具有更低的通信成本,更适用于计算资源不同的现实场景。1.3.3 基于梯度压缩的VFL 深度梯度压缩32是通过压缩梯度的方式来解决通信带宽问题,通过仅发送重要梯度的方式减少了通信带宽。Yang等33基于深度梯度压缩方法提出一种通信双方参数共享和梯度压缩的VFL,同时为了保证精度不受影响,采用了动量校正、局部梯度剪裁、动量因子掩蔽和热身训练。类似地,Li等34提出了一种基于梯度预测和双端稀疏压缩的异步纵向联邦学习框架,其使用预测第 2 期 陈晋音等:纵向联邦学习方法及其隐私和安全综述 7 值的增量幅度启发式方法来确定被动方参与者数据的重要性,只有最大的预测值变化才会传输到主动方并参与参数更新。其
37、余部分的值会随着模型参数的更新而局部累积,直到达到设定阈值才可以进行传输。对于主动方采用只传送幅度最大的梯度。为了防止梯度信息丢失,在局部累积剩余的梯度,随着梯度增加到设定阈值,累计的梯度进行传输。1.3.4 基于直接内存访问的VFL VFL中常见的通信方式是采用Google发布的基于HTTP 2.0传输层协议承载的高性能开源软件框架GRPC(Google remote procedure call)。GRPC是一个基于传输控制协议的远程过程调用框架,因此数据传输具有较高的时延,并消耗大量CPU资源。高时延可能会显著降低参与者之间的通信速度,而额外的CPU成本会导致用于加密、解密和训练作业的资
38、源减少。为了降低VFL中的通信成本,Liu35提出了一种使用远程直接内存访问(RDMA,remote direct memory access)传输数据的设计,用于内部通信,而不需要对应用程序进行任何修改。为优化RDMA在VFL中的适用性能,其设计了一个面向性能分配的优化器。一方面,优化器观察参与者的历史通信的数据量变化调整RDMA的分配;另一方面,优化器以二进制搜索方式搜索最佳查询数据大小。在传输过程中动态更改查询数据大小,达到最佳的平均RDMA传输速度。1.3.5 小结 现有的VFL关于降低通信成本的算法研究正朝着异步化、收敛快速化以及通信低时延化方向发展。得益于二阶梯度比一阶梯度具有更快
39、的收敛速度,一些研究采用二阶梯度加快VFL的收敛速度,进而降低通信成本。此外,一些注重于客户端之间通信方式的研究有效提升了纵向联邦学习的通信效率。1.4 VFL 对齐机制 数据对齐是指在训练前期将不同客户端之间相同或类似的数据条目进行链接。数据对齐作为VFL的重要阶段,直接影响模型的预测性能。此外,数据对齐的方式也会直接影响数据ID信息的隐私安全。1.4.1 基于隐私集合求交的VFL 隐私集合求交(PSI,private set intersection)技术的目的为实现跨机构之间数据安全合作,计算机构之间在隐私数据集的交集,同时不泄露任何交集以外的信息。这种技术在众多VFL算法的数据对齐阶段
40、中被采用。现有研究36将PSI技术分成了5个类别:朴素的隐私集合求交技术、基于公钥体系的隐私集合求交技术37-38、基于不经意传输的隐私集合求交技术39-40、基于可信执行环境下的隐私集合求交技术以及隐私集合交集基数计算技术41-42。文献5直接采用隐私集合求交技术来实现不同VFL中参与者的数据对齐。1.4.2 基于相似度匹配的VFL Wu等11针对VFL中的数据对齐设计了一种基于相似度对齐数据的框架。该框架包含两个重要的组件:模糊链接和基于相似度链接。在模糊链接中,VFL中的协调者初步筛选出候选链接对,计算客户端之间样本的相似度距离。在基于相似度的组件中,通过在分裂网络外层附加相似度训练网络
41、,同时兼顾主任务训练和样本对齐。具体而言,相似度度量值经过权重门映射到权重。经过映射的权重信息传入合并门,用以合并相似度权重和模型训练数据。之后经过分拣门对相似度进行排序,从而稳定VFL的更新。上述工作在手动模糊筛选链接后,进一步融合相似度网络到VFL中,在训练过程中寻找相似度高的数据链接对的同时提高VFL性能。1.4.3 基于半监督学习的VFL 现实场景下的VFL中存在样本空间重叠小的情况,常见的VFL难以进行正常的训练。为了得到更多的对齐样本,Kang等10提出一种基于半监督学习的联邦多视角训练方法来补全未对齐数据的缺失特征值。该方法补全样本缺失特征值,增加了对齐数据样本的数量,这使得VF
42、L在充分利用重叠样本的同时,扩展了样本对齐空间,进而提高VFL的性能。1.4.4 小结 样本对齐是VFL中重要的环节,直接影响纵向联邦学习的性能,并且潜在地关联到数据ID信息。对于数据身份信息完整的情形,使用经典的隐私集合求交对齐的技术,同时兼顾数据样本对8 网络与信息安全学报 第 9 卷 齐和数据ID信息保护。对于样本身份信息模糊的情况,基于相似度的数据条目匹配能有效解决数据对齐问题。在样本空间重叠小的情况,通过应用半监督学习对样本特征空间进行补全的方式可增加样本对齐空间,从而提升VFL整体性能。1.5 VFL 标签处理机制 根据VFL的应用场景不同,其参与者的标签分布会存在差异。纵向联邦学
43、习场景中的标签通常分为两种情形,标签为一方提供或标签为多方提供,其中标签为一方提供的场景较为常见,如一家专科医院具有所有病人的某种疾病的诊断信息。而多方持有标签的场景往往发生在没有一方可以提供整套完整的标签数据,需多个参与者共同提供完整的标签数据。由于两种场景中标签作为隐私数据无法直接进行共享,这两种场景中的标签处理方法存在差异。1.5.1 标签为一方持有 常见的VFL研究中21,23假设标签为主动方持有,主动方为第三方协调者提供标签训练模型。其中,被动方和主动方同时利用边缘模型提取嵌入特征,由第三方协调者完成对模型梯度信息的计算。然而这些研究往往局限于同步计算,其算法效率低。针对上述问题,Z
44、hang等43提出一种反向更新机制(BUM)和双层异步并行体系结构(BAPA)VFL框架。BUM的核心思想是使被动方在不直接访问原始标签数据的情况下,间接使用标签计算随机梯度,通过将标签信息嵌入传输的中间信息中,使得被动方能够利用梯度下降算法更新边缘模型。BAPA使得内部参与者并行计算,从而所有活动方能够异步启动更新动作。内部一方表示各方内协作更新的共享内存并行,使得参与者的多个线程能够异步执行协作更新。这种嵌入标签的VFL框架同时调动主动方和被动方的计算资源,提高VFL的工作效率。1.5.2 标签为多方持有 Xia等44提出了一个级联纵向联邦学习(CVFL,cascade VFL),以自下而
45、上的方式将整个神经网络分解为两类子网络。在这套系统中存在被动方、主动方以及协调者。每个被动方都具有各自的边缘模型,边缘模型学习将高维原始特征映射为低维紧凑嵌入向量。每个主动方负责训练本地聚合模型,其拼接所有的嵌入特征向量作为输入训练聚合模型。在训练过程中,主动方使用持有的标签利用计算边缘模型和聚合模型的梯度信息。协调者接收并聚合所有主动方的聚合模型的梯度信息更新全局模型。级联结构解决了传统端到端反向传播中模型更新标签的必要性。此外,为了增加聚合算法在非独立同分布场景中的适应性,Mugunthan等45采用横向联邦学习中的自适应联邦聚合算法46。通过在联合训练优化过程中引入动量和自适应学习率技术
46、,提高模型的收敛能力,进而更适合于非独立同分布场景下的应用。针对涉及多方的多类VFL场景,Feng等提出了多参与者垂直联合学习框架47,扩展了多视图学习的思想,同其他VFL参与者共享标签。Hu等48提出了一个ADMM共享框架,实现分布式特征共享,其中每一方只需要在训练过程中为每个样本共享一个值,从而最大限度地减少数据泄露风险。此外,Gu等49提出了一种用于垂直分区数据的联合双随机内核学习算法实现快速的收敛。1.5.3 小结 标签在参与者之间分布的差异导致VFL的算法有所区别。引入分裂学习思想建立级联的VFL框架或者将标签信息嵌入客户端交换的中间信息提供解决标签分布差异问题的新思路。2 纵向联邦
47、学习隐私和安全风险 随着纵向联邦学习在众多领域得到应用,其隐私和安全引起学术界和工业界广泛讨论50。VFL的安全性指模型的预测结果不能偏离预期。本节从推断攻击、后门攻击以及对抗攻击对VFL上现有的攻击进行系统总结和科学归纳,并讨论相较于横向联邦学习,VFL面临风险的独特性。常见的纵向联邦学习中面临的安全和隐私威胁如表1所示。2.1 VFL 中的推断攻击 VFL中参与方的隐私信息通常包括:数据特征、成员ID、属性信息以及标签信息。本节分别介绍和分析VFL中隐私信息泄露的推断攻击方法。第 2 期 陈晋音等:纵向联邦学习方法及其隐私和安全综述 9 2.1.1 标签推断攻击 在纵向联邦学习中,主参与者
48、的标签信息属于隐私信息,因为标签信息属于参与者的重要资产或者标签本身具有高度敏感性。例如,提供标签的机构是一家专科医院,这些标签为某一个病人是否患有“艾滋病”的信息。Fu等22提出针对VFL的标签推断攻击,包括被动标签推断攻击、主动标签推断攻击、直接标签推断攻击3种攻击方法。攻击的原理是VFL在训练期间传播的梯度通常有助于攻击者的边缘模型学习关于标签的良好特征表示,因此边缘模型可能包含标签的信息。此外,VFL在训练期间传输的梯度也可能直接包含标签的信息。在被动标签推断攻击21中,攻击者利用完成训练的边缘模型,通过模型补全的方式发动标签推断攻击。具体地,攻击者在少量辅助标记数据的帮助下,通过引入
49、半监督学习技术,将训练的边缘模型微调为完整的标签推理模型发动攻击。在真实的医疗图像数据集上,在攻击者仅具有70个辅助样本作为背景知识的情况下,被动方标签推断攻击的 F1值达到0.76。在主动标签推断攻击21中,攻击者通过提高恶意的边缘模型表达能力,从而进一步提高攻击性能,使得VFL更加依赖恶意底部模型。攻击者采用一个恶意的优化器,加快边缘模型的收敛速度从而强化边缘模型和标签之间的映射关系。在直接标签推断攻击21中,攻击者通过分析VFL过程中传输的梯度符号来推断标签。它仅适用于VFL中未采用分裂学习设计的情况,标签推断准确率通常达到100%。类似地,Li等13基于VFL训练过程中传输的梯度信息提出一种范数攻击,用以推断主参与表 1 常见的纵向联邦学习中面临的安全和隐私威胁 Table 1 Common securit