基于联邦学习的多源数据用户画像设计方案.pdf
《基于联邦学习的多源数据用户画像设计方案.pdf》由会员分享,可在线阅读,更多相关《基于联邦学习的多源数据用户画像设计方案.pdf(9页珍藏版)》请在咨信网上搜索。
1、第 卷第 期 年 月南 京 邮 电 大 学 学 报(自 然 科 学 版)():基于联邦学习的多源数据用户画像设计方案陈 晶,彭长根,谭伟杰,贵州大学 公共大数据国家重点实验室,贵州 贵阳 贵州大学 计算机科学与技术学院,贵州 贵阳 贵州大学 贵州省大数据产业发展应用研究院,贵州 贵阳 摘要:中小微型企业在用户画像实际应用中缺乏足够的数据和特征标签,难以得到精准的结果。同时,跨行业、跨部门数据以集中方式进行训练会导致隐私泄露。针对以上问题,提出了一种基于联邦学习的多源数据用户画像设计方案。该方案设计了联邦画像系统框架,利用联邦学习的计算机制和隐私求交算法,实现了多源数据共享,保证了各方数据集的隐
2、私安全。实验表明,对比本地画像方案和部分多源数据画像方案,所提方案能够大幅度提高预测精度,具有更高的隐私安全性和算法扩展性。关键词:用户画像;数据共享;数据隐私安全;联邦学习;预测准确率中图分类号:文献标志码:文章编号:(),:,:;收稿日期:;修回日期:本刊网址:基金项目:国家自然科学基金(,)资助项目作者简介:陈晶,男,硕士研究生;彭长根(通信作者),男,博士,教授,博士生导师,引用本文:陈晶,彭长根,谭伟杰基于联邦学习的多源数据用户画像设计方案南京邮电大学学报(自然科学版),():年中共中央、国务院发布关于构建更加完善的要素市场化配置体制机制的意见后,数据的市场价值更为突出。用户画像作为
3、一种面向大数据个性化服务的数据价值分析手段,依据多样化、大体量的用户行为、背景、性格等属性标签进行画像建模,深度挖掘数据的潜在关联价值。然而,在实际应用场景中,除大型互联网企业拥有足够体量的数据外,很多中小微型企业因缺少足够数据特征来描绘出精准的画像模型,进而无法准确反映用户特征,难以提供有效的决策支撑。另外,由于行业竞争、隐私安全以及复杂的管理方式,将不同企业、不同政府部门的数据采用集中方式处理会引起数据的泄露,存在隐私安全风险。与此同时,各国政府和组织也出台了相关的隐私条例,如 年欧盟发布的通用数据保护条例、年 月加州通过的加州消费者隐私法案、年 月 日正式施行的中华人民共和国个人信息保护
4、法。一方面这些法律法规对用户数据隐私保护提供了强有力的保障,另一方面也从法律层面限制了中小微型企业跨域联合训练用户画像的可能性,导致其陷入了进退两难的困境。为了解决中小微型企业面临的数据体量不足和跨部门跨区域合作面临的异构数据资源难以整合、数据隐私安全难以保证等问题,提出了一种基于联邦学习的多源数据用户画像设计方案,通过加密隐私梯度聚合方式,在数据不出域的前提下完成多参与方画像模型的联合训练,为中小微型企业决策分析提供支持。相关工作用户画像是能够基于用户信息、用户行为等相关信息分析挖掘其潜在价值的技术。用户画像的概念最早 年由 提出,随着数据价值的提升,用户画像技术被广泛应用于各行业各领域,对
5、于用户画像技术的研究也逐渐成为热门。年,等通过矩阵来描述数据集,基于类别邻域和用户邻域平滑预测结果。年,单晓红等通过 个属性维度,以 工具建立画像本体,分析用户评价的情感极性。等基于 词频设置计算模型,通过用户聊天数据绘制个性模型。年,等基于网格化商旅数据,对比了用户画像基于 回归、决策树、随机森林、梯度提升决策树和 五种算法模型的预测精度。年,等在 结构的基础上提出了 模型算法,在偏好推荐中取得较好效果。等将随机森林算法与用户画像技术相结合,与反向传播神经网络算法进行对比,识别准确率提升了。等使用单热编码转换特征数据,并根据不同数据匹配使用神经网络、等机器学习算法来预测用户的情感倾向。然而该
6、方案缺少足够的用户特征,预测精度只有。上述文献方案中针对各自的数据集进行画像建模,在数据处理、推荐算法、画像模型优化等方面取得了一定的成果。然而,在数据体量较小或缺少数据标签的情况下,以上方案难以取得较好的效果,用户画像的特征维度不高,预测结果不可用。为了解决上述困境,相关学者基于分布式环境和多源数据融合技术对用户画像展开了新一轮的研究。年,等深入研究区块链分布式环境中公开数据的建模方法,基于 无监督人工神经网络处理海量数据。然而 等指出,该方案距离准确理解和预测 用户行为还相去甚远。雷鸣等在 系统基础上,结合分布式技术和 技术,实现了对非结构化数据的分布式处理。苗光尧等改进 聚类算法,从数据
7、、特征、决策三层融合多模态数据,取得了更高的画像精度。袁苗苗等结合 分词算法和 加权算法融合不同领域的数据集建立画像,该方法中多领域标签库构建流程如图 所示。上述方案在分布式环境和多数据集场景中进行了一定的探索研究,然而,分布式数据处理后,依旧需要在存储组件中汇总数据进行集中计算,存在隐私泄露的风险。另外,上述方案中数据的使用依旧局限于单个参与方,没有从根本上解决多参与方联合训练画像的需求。因此,如何实现多域联合画像训练,以及其中面临的隐私安全问题还有待研究。图 多领域标签库构建流程图 方案设计联邦学习实质上是一种基于分布式机器学习的南京邮电大学学报(自然科学版)年框架,基于此框架,不同的参与
8、方通过中央服务器共同训练所需模型,与此同时,各自所持有的隐私数据依旧保留在本地。联邦学习的分布式框架既保留了机器学习的模型训练功能,又抛弃了数据中心的集中式训练方式,因此巧妙地规避了传统机器学习所面临的隐私风险和数据安全防治成本。自 年 等提出 技术后,该技术依靠其与加密技术深度结合的分布式计算方式,在解决数据隐私泄露、数据跨区域共享难等问题方面具有不可替代的优势,并在应用中取得了较多成果。因此,考虑到将联邦学习技术应用到传统的用户画像模型分析中,以解决其面临的数据集成困境和数据隐私壁垒,从而能够得到更加全面的画像,挖掘出更多的数据潜在价值。联邦画像系统框架设计本方案系统框架如图 所示。图 系
9、统框架图本文面向多个参与方持有数据集共同参与用户画像模型训练的应用场景,提出了基于联邦学习的用户画像方案。本方案共分为 层:用户数据层、数据隐私求交层、模型加密训练层、用户画像评估层。用户数据层是参与方提供自己的本地数据库参与联合训练;隐私求交层根据参与方数量和数据量,通过加密算法求出公共的隐私数据集,作为整个数据处理和模型训练的基础;模型加密训练层通过对数据的处理和模型的迭代训练完成画像模型并计算各参与方的贡献度完成激励分配;用户画像评估层主要从用户覆盖率、预测准确率、训练效率、安全性分析和可扩展性等 个方面进行评估。基于加密求交的联邦学习联邦学习技术能够有效地减少数据聚合引发的隐私泄露风险
10、,根据参与方的数据集属性不同可以分为 大类,分别是横向联邦学习、纵向联邦学习和联邦迁移学习。其中纵向联邦学习主要应用于不同企业之间有较多的客户属性交集的情况,在跨行业合作中有着更好的应用前景。传统的训练方式下,多个参与方的不同特征值需要在训练前进行连接生成新的数据集,然而在联邦学习中不同参与方不能直接进行数据传输,因此引入第三方密钥中心,对数据样本进行加密求交后,再进行加密的模型训练,其主要步骤如图 所示。图 联邦学习训练步骤图其中模型加密训练模块的流程,如图 所示。本文所提方案在联邦学习训练前的数据加密求交阶段,主要使用基于 和哈希函数联合加密的方式完成。参与方 基于参与方 提供的公钥对数据
11、集 进行加密得到,再代入 得到,将加密后的数据集发送至参与方,基于私钥解密得到基于 加密的 数据集的映射表,将 代入,并基于 的映射得出 的映射表,将新得到的映射表发送至参与方,通过两个映射表的连接运算得到新的映射,基于此再进行密文下的 运算,通过映射关系寻得对应的明文数据集。第 期陈 晶,等:基于联邦学习的多源数据用户画像设计方案图 模型加密训练流程图算法 加密求交算法。输入:,输出:(,),(,)(,)(,)(,)(,)(,)(,)(,)()()(,)()(,)(,)(),由于文中每个参与方携带数据集样本的体量不相同,每个参与方在训练过程中标签所占有的权重也是不一样的,为了区分并整合各个参
12、与方的训练权重,采用了 算法。该算法能够根据各方持有数据权重,通过局部随机梯度下降方式对数据持有方本地模型进行优化,再聚合至中心服务器。中心服务器的目标函数()如式()所示,其中 表示参与方的数量,表示各参与方的数据总量,表示第 个参与方的数据量,第 个参与方的本地目标函数用()表示。()()()本地目标函数()如式()所示,其中 表示第 个数据集中的训练样本,样本的个数用 表示,()为本地的损失函数。()()()训练过程中采用梯度下降算法()进行目标函数优化,本地的更新算法如式()所示,中心服务器的梯度聚合如式()所示,其中 表示固定的学习率,表示训练轮次。,()(),()模型加密训练层模型
13、训练层从功能上划分为 大模块:数据处理、模型训练、激励分配。各参与方无需提供本地的数据信息,所以模型梯度传输也是加密进行的,在保证了数据隐私安全的同时完成了对联合画像模型的训练。数据处理不同于传统的用户画像数据处理步骤,该方案在完成数据预处理的同时,需要和各参与方进行多轮通信,以确保各参与方的本地数据能够得到相同程度的清洗。同时依据数据特征处理工程,识别各参与方提供数据量和数据质量的不同,作为激励分配的指标。基于数据处理模块能够在保证各参与方数据隐私的同时剔除大量弱相关信息,减少了数据干扰和冗余,提高数据质量以获得更高精度的画像模型。模型训练本文分别采用了 聚类算法和随机森林算法对数据进行分析
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 联邦 学习 数据 用户 画像 设计方案
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。