一种高效的非交互式隐私保护逻辑回归模型_唐敏.pdf
《一种高效的非交互式隐私保护逻辑回归模型_唐敏.pdf》由会员分享,可在线阅读,更多相关《一种高效的非交互式隐私保护逻辑回归模型_唐敏.pdf(12页珍藏版)》请在咨信网上搜索。
1、第 49卷 第 4期2023年 4月Computer Engineering 计算机工程一种高效的非交互式隐私保护逻辑回归模型唐敏,张宇浩,邓国强(桂林电子科技大学 数学与计算科学学院 广西高校数据分析与计算重点实验室,广西 桂林 541004)摘要:逻辑回归作为一种典型的机器学习算法,被广泛应用于医疗诊断、金融预测等领域。由于单个用户没有足够的样本构建高精度模型,传统的集中式训练则会导致隐私泄露,因此构建具有隐私保护的逻辑回归模型受到广泛关注。现有的要求用户和服务器之间进行交互的方案具有较高的计算成本和通信负担。提出一种高效的非交互式逻辑回归训练协议,利用具有良可分离结构的梯度更新公式,解耦
2、样本数据和模型参数之间的计算耦合性,保证用户与服务器之间的单向单次传输性,即用户将本地数据整合并以秘密共享的方式上传给云服务器后即可离线。在训练阶段设计基于矩阵和向量运算的协议,保证服务器在每次迭代中使用固定的信息更新参数,降低计算成本和通信开销。同时,基于协议的安全性分析和数值实验,在UCI库的4个真实数据集上训练逻辑回归模型,实验结果表明,在保证模型精度的前提下,与最新的隐私保护逻辑回归方案VANE相比,该回归模型效率提升了80120倍,且训练时间与明文域相近。关键词:逻辑回归;隐私保护;良可分离结构;秘密共享;向量化开放科学(资源服务)标志码(OSID):源代码链接:https:/ J.
3、计算机工程,2023,49(4):32-42,51.英文引用格式:TANG M,ZHANG Y H,DENG G Q.An efficient non-interactive and privacy-preserving logistic regression model J.Computer Engineering,2023,49(4):32-42,51An Efficient Non-Interactive and Privacy-Preserving Logistic Regression ModelTANG Min,ZHANG Yuhao,DENG Guoqiang(Guangxi C
4、olleges and Universities Key Laboratory of Data Analysis and Computation,School of Mathematics and Computing Science,Guilin University of Electronic Technology,Guilin 541004,Guangxi,China)【Abstract】As a typical machine learning algorithm,logistic regression is widely used in medical diagnosis,financ
5、ial forecasting and other fields.Since a single user does not have enough samples to build a high-precision model,and the traditional centralized training will lead to privacy leakage,building a logistic regression model with privacy preserving has attracted extensive attention.The existing schemes
6、that require communication between users and servers lead to high computing costs and communication burden.This paper proposes an efficient non-interactive logistic regression training protocol.Using the gradient update formula with a well-separable structure,the computational coupling between sampl
7、e data and model parameters is decoupled to ensure one-direction single transmission between users and servers.That is,users can go offline after integrating local data and uploading it to the cloud servers in a secret sharing manner;In the training phase,a protocol based on matrix and vector operat
8、ion is designed to ensure that the server uses fixed information update parameters in each iteration,reducing the calculation cost and communication overhead.Meanwhile,the protocol security analysis and numerical experiments are provided.The experimental results of training the logistic regression m
9、odel on four real datasets from the UCI library show that,under the premise of ensuring the accuracy of the model,the efficiency is greatly improved(80-120 times)compared with the latest privacy preserving logistic regression scheme VANE,and the training time is similar to that in the plaintext doma
10、in.【Key words】logistic regression;privacy-preserving;well-separable structure;secret sharing;vectorizationDOI:10.19678/j.issn.1000-3428.00655490概述 在大数据时代下,机器学习对人们生活产生了巨大的影响1-3。逻辑回归作为典型的机器学习算法,广泛应用在医疗诊断4、文本识别5、物联网6等多个领基金项目:广西科技基地和人才专项(AD18281024);桂林电子科技大学研究生教育创新计划项目(2022YCXS144)。作者简介:唐敏(1980),女,副教授、博
11、士,主研方向为计算机代数、机器学习;张宇浩,硕士研究生;邓国强(通信作者),副教授、博士研究生。收稿日期:2022-08-19 修回日期:2022-09-30 Email:热点与综述文章编号:1000-3428(2023)04-0032-11 文献标志码:A 中图分类号:TP309第 49卷 第 4期唐敏,张宇浩,邓国强:一种高效的非交互式隐私保护逻辑回归模型域。通常来说,单一的用户或组织没有足够的数据构建高精度的模型,应对本地训练样本不足的方案7是聚合不同来源的数据。然而,出于隐私限制,很难将带有敏感信息的数据直接集中进行模型训练。因此,在隐私保护下构建逻辑回归模型引起人们的广泛关注。研究人
12、员利用密码技术,针对隐私保护逻辑回归(Privacy-Preserving Logistic Regression,PPLR)模型进行研究,其中的同态加密(Homomorphic Encryption,HE)是最常用的数据安全保护技术。GUO等8采用BGN全同态加密(Fully Homomorphic Encryption,FHE)系统设计了一个逻辑回归预测阶段的隐私保护医疗预诊方案。FAN等9使用更高效的 SEAL全同态库加密数据,提出一种在训练阶段的隐私保护逻辑回归算法(PPLRA)。出 于 实 用 性 考 虑,基 于 CHEN 等10的HEAAN全同态方案,XU等11将二分类逻辑回归隐私
13、保护模型推广到多分类。为避免全同态方案的高计算复杂性,SONG等 12 使用部分同态加密(Partial Homomorphic Encryption,PHE)保护数据,通过异步梯度共享算法交换训练中间结果而不暴露隐私,实现了对垂直分区数据的安全训练。尽管同态加密允许在不解密数据的情况下对密文直接进行计算,其输出与用同一方法处理明文的结果一致13。然而,针对机器学习模型训练问题,由于迭代次数较多、数据规模较大14,因此无论基于 FHE还是 PHE的方案都需要进行代价较大的加解密处理以及多次同态运算,效率较低;另外,用户之间或用户与服务器之间的多次交互也导致较高的通信负担。为了缩小密文训练与明文
14、训练在计算效率上的差距,研 究 人 员 采 用 秘 密 共 享 技 术 保 护 私 有 数 据。MOHASSEL等15提出了 SecureML,极大地提高了数据维度较大时逻辑回归训练的效率。在 SecureML的基础上,MARTINE 等16引入了一个可信的第三方生成乘法三元组,进一步提高了服务器交互训练阶段的效率;ZHENG 等17提出了基于茫然传输的安全矩阵计算方案,利用 OT 扩展协议和批处理缩减了交互轮数,使训练过程所需的通信开销更低。上述基于秘密共享的隐私保护方案避免了同态加密所需的巨大计算量,在效率上有较大的提高。然而,由于训练过程由 2 台16或 3 台17非共谋的服务器协同完成
15、,服务器之间需要多次交互,对网络的可靠性提出更高的要求。目前,有研究人员提出非交互式的隐私保护机器学习方案18-20(用户一次上传加密数据,不参与训练)。典型的代表是 2021年 WANG 等20设计的基于梯度下降的非交互式 PPLR 方案(VANE),其迭代训练过程中参数更新操作在明文下进行,因而效率较高。然而,该方案在训练前要求用户使用 Paillier 系统对m(d+1)2(m为用户数量,d为数据维度)个元素进行加密并上传给服务器,服务器端也需要聚合并解密同等规模的数据,当属性较多或用户数较多时,该方案的效率有所下降。为了解决上述方案的局限性,本文提出一个高效的具有隐私保护的逻辑回归训练
16、方案 SLRT。定义良可分离结构,结合逻辑损失函数的近似替换策略,解耦梯度更新公式中用户数据与模型参数之间的计算耦合性,通过整合本地数据并以秘密共享方式上传给云服务器后随即离线。在此基础上,设计明文空间上基于矩阵和向量运算的训练协议,保证服务器在每轮迭代中使用固定的信息进行协同训练,减少传统秘密共享方案中服务器之间的计算开销和通信负担。1预备知识 1.1逻辑回归逻辑回归21是一种广义的线性回归分析模型,常用于解决二分类问题。给定由n个样本组成的数据集(X,Y)=(x1,y1),(xn,yn),其中,xi=(1,x1i,x2i,xdi)T,xji表示样本xi的第 j个特征,i=1,2,n,j=1
17、,2,d,第 1 个 元 素 1 用 于 偏 置 项 的 计 算,xi对 应 类 标 签yi-1,1。在逻辑回归算法中,使用 Sigmoid函数来构建样本xi所属类别的概率:P(yi=1|xi,)=11+e-yiTxi其中:权重向量=(0,1,d)T是优化的模型参数。在逻辑回归中通过损失函数22来评估模型的预测值和真实值之间的误差,定义为:L(X,Y,)=1ni=1nloga(1+e-yiTxi)(1)通常使用梯度下降最小化式(1)来获取最优的模型参数。在第t次迭代时,通过t+1进行更新:t+1=t-ni=1n()11+e-yiTxi-1 yixi(2)其中:为学习率。当模型参数t和t+1之间
18、的值小于给定的阈值或达到最大迭代次数时,终止训练。1.2秘密共享1.2.1加秘密共享加秘密共享15包含 2个算法:共享算法将消息a分发给 2 个非共谋的参与方;重构算法根据共享值将原始数据a恢复出来。1)共享算法ShrA(a)。为了在 2 个参与方P0、P1之间加秘密共享一个原始消息a R,首先产生随机值a0 R作为a的一个共享值发送给参与方P0,记作0;然后1=a-a0 R作为a的另一共享值发送给参与方P1。这样a就在P0、P1之间共享,但任何一方都无法了解a的真实信息。2)重构算法RecA(0,1)。设P0拥有消息a的共享值0,P1拥有a的共享值1。为了重构一个被加共享的值a,Pr将r发送
19、给另一方P1-r,r 0,1,或共同发给第三方,通过计算0+1重构出a。1.2.2加秘密共享乘法(SSM(a,b))设P0有原始消息a R和b R的共享值0、0,P1有1、1,在计算完成时双方分别拥有cr=r R,r 0,1,加秘密共享乘法执行过程如下:332023年 4月 15日Computer Engineering 计算机工程1)由第三方可信机构TPA随机生成乘法三元组(u,v,z),其中,u,v,z R,z=uv。执行共享算法ShrA(),将r、r和r分发给Pr。2)Pr本 地 计 算r=r-r和r=r-r,并将r和r发给另一方P1-r,双方各自 执 行 重 构 算 法RecA(0,1
20、)、RecA(0,1),恢复出e和f。3)Pr计 算r=r e f+f r+e r+r。Pr可以通过将r发送给P1-r,或共同发给第三方执行RecA(0,1)重构得到c,其中 c=a b。1.2.3加秘密共享内积(SSIP(a,b))假 设P0有 向 量a R1 n和b Rn 1的 共 享 值0、0,P1有共享值1、1。参与方P0、P1通过执行SSIP(a,b)分别得到r=r R,r 0,1。加秘密共享内积协议执行过程如下:1)TPA随机生成Beaver s乘法三元组23(g,f,h),其中,g R1 n,f R1 n,h=g f R。执行共享算法ShrA(),并将共享值r、r和r分发给Pr。
21、2)参与方Pr收到乘法三元组的共享值后,本地计算r=r-r和r=r-r,并将r、r发送给另一方P1-r。Pr双方各自执行重 构 算 法RecA(0,1)、RecA(0,1),得到d和e。3)Pr计 算r=r d e+r+r e+dr。Pr可以将r发送给P1-r,或共同发给第三方执行RecA(0,1)重构得到z,其中z=a b。2模型与安全性需求 2.1系统模型系统模型由3个部分组成:第三方可信机构TPA;用户Ci(i=1,2,m);云服务器S0、S1。如图 1所示。1)第三方可信机构 TPA 主要负责系统初始化,生 成 训 练 参 数 以 及 乘 法 三 元 组 并 分 发 给 云 服 务器S
22、0、S1。2)用户Ci拥有本地数据集Di,每个样本包含完整的属性。Ci首先在本地对其私有数据进行预处理,然后使用秘密共享将整合的本地局部数据矩阵拆分成两部分,分别上传给云服务器S0、S13)2 台非共谋云服务器S0和S1分别聚合来自多个用户的本地数据共享矩阵,负责协同训练获得全局模型参数的共享。2.2威胁模型与安全需求SLRT 的主要目标是在保护用户数据和模型参数隐私的前提下训练逻辑回归模型。本文考虑以下2种攻击类型:1)诚实且好奇的攻击。在SLRT系统中涉及的用户Ci和云服务器S0、S1都是诚实且好奇的,即正确地执行训练协议,但会在训练过程中尝试了解更多信息。2)共谋攻击。虽然在 SLRT
23、系统中 2 台云服务器是非共谋的,这在安全两方的隐私保护协议中被广泛采用15-17,但允许云服务器S0、S1通过生成合法客户端与一些本地客户端共谋,并试图从获取的数据中推断出一些隐私信息。3SLRT方案 本节详细介绍非交互式逻辑回归安全训练方案SLRT。给出良可分离结构的定义,结合逻辑损失函数近似替换策略构建新的梯度计算格式。用户对其本地数据进行预处理,使用秘密共享将局部数据矩阵拆分,分别上传给 2 台云服务器S0、S1,经S0、S1协同训练得到模型参数的共享值。图 1系统模型Fig.1System model34第 49卷 第 4期唐敏,张宇浩,邓国强:一种高效的非交互式隐私保护逻辑回归模型
24、定义 1(良可分离结构)函数f(x,y;)具有良可分离结构,f(x,y;)可以表示为:f(x,y;):=jgj(x,y)hj()其中:gj(x,y)是关于x和y的函数;hj()是关于的函数。具有良可分离结构的函数f可以表示函数gj和hj的乘积,其中gj和hj具有完全不同的自变量。当x、y分别表示样本特征和类标签,表示模型参数时,可以将函数f看作是机器学习训练中的梯度更新公式。如果其可表示成良可分离结构形式,则意味函数gj的计算只依赖于样本,hj只依赖于。也就是说,gj可由用户在本地计算,拥有参数的服务器一旦获得gj,即可获得梯度f(x,y;)。3.1良可分离结构的构建SLRT方案利用梯度计算公
25、式的良可分离结构,实现用户与服务器的非交互式训练。由于梯度更新公式式(2)涉及幂运算和除法,很难将其转变为样本信息和参数信息完全分离的计算形式。WANG等20提出一种基于二阶泰勒多项式T2近似逻辑函数的良可分离结构。考虑到使用低阶的泰勒多项式可能导致精度的损失,本文采用连续最小二乘近似(Continuous Least Squares Approximation,CLSA)24构造替代函数,克服了泰勒多项式近似在远离原点时偏离原函数的局限。3.1.1逻辑函数近似CLSA 的目标是在整个给定区间a,b上找到一个近似函数,满足与原函数之间的误差平方和最小。使用 CLSA 算法,区间-4,4上近似l
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 一种 高效 交互式 隐私 保护 逻辑 回归 模型 唐敏
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。