基于差分隐私的高效用项目集挖掘算法.pdf
《基于差分隐私的高效用项目集挖掘算法.pdf》由会员分享,可在线阅读,更多相关《基于差分隐私的高效用项目集挖掘算法.pdf(8页珍藏版)》请在咨信网上搜索。
1、书书书第 卷第 期太原科技大学学报 年 月 文章编号:()收稿日期:基金项目:国家自然科学青年科学基金();山西省自然科学基金();太原科技大学博士科研启动基金()作者简介:马煜(),男,硕士研究生,主要研究方向为大数据分析技术;通信作者:荀亚玲副教授,:基于差分隐私的高效用项目集挖掘算法马煜,荀亚玲(太原科技大学 计算机科学与技术学院,太原 )摘要:在大数据时代,互联网安全事件频繁发生,用户数据安全性已成为大数据分析的热门话题。通过有效挖掘高效用项集获得的知识可能包含重要信息,如果被恶意滥用,可能威胁到数据拥有者的隐私或利益。为了防止数据信息泄露,提出了基于隐私保护的高效用项目集挖掘算法 (
2、)首先在构建树的过程中,使用指数机制来混淆项头表的顺序,将拉普拉斯噪声添加到每个节点,从而得到差分隐私的树结构 最终进行高效用项目集挖掘。该方法以牺牲部分完整性为代价,大大提高了用户数据的安全性。实验结果表明,该方法的完整性损失在误差可接受的范围内,安全性能大大提升。关键词:高效用项目集挖掘;隐私保护;差分隐私;拉普拉斯机制;指数机制中图分类号:文献标识码:随着社会各领域数据的快速增长,用户面临着如何从数据海洋中挖掘出有价值信息的挑战。关联规则是数据分析知识的重要结构 ,通过在数据对象之间建立连接和关联来获取重要知识。传统的关联规则挖掘()倾向于关注该商品是否出现在用户的购买历史中,以及同时出
3、现在该商品购买历史中的其他商品,这样商家更容易链接到利润。因此,高效用项目集挖掘()被提出,它不仅考虑要求信息的项目数量,还考虑效用价值,因此与传统 相比更具有决策价值。同时,一些不法分子可以从中提取出一些与利益相关的竞争信息,从而损害数据所有者的利益。因此,隐私保护效用挖掘()已成为高效用项目集挖掘中的一个重要研究课题。传统的隐私保护方式有同态加密过程 、和 它们都可以在一定程度上保护数据不被泄露。但是在同态加密中,其加密和解密的过程需要消耗大量的计算资源,同时该方案受到每个密文都有噪声的限制,甚至使得密文变得十分困难;可以防止身份信息泄露,却不能防止属性泄露;当用户在元数据中有多个记录时
4、隐私原则无法防止隐私泄漏,敏感属性的性质决定了即使保证了一定概率的 也容易泄露隐私。而差分隐私 通过使用拉普拉斯机制和指数机制添加噪声,可减少个人信息泄露的风险,数据的可用性得到了很大的保证,在隐私和可用性之间取得了平衡。且差分隐私保护所添加的噪声量与数据集的大小无关,因此,在大规模数据集的情况下,即使只添加少量的噪声,也可以实现较好的隐私保护。本文结合差分隐私保护提出一种高效用项目集挖掘算法,主要贡献如下:给出一个树结构 ()来维护事务交易 项目及其效用信息,并提出了一种基于差分隐私的高效用项集挖掘算法 ()当数据为数值型时,采用拉普拉斯机制;当数据为序列型时,采用指数机制。实验结果表明,基
5、于差分隐私的高效用项集方法可以有效保护高效用性项集的发布。相关工作 基于高效用模式集挖掘传统关联规则的挖掘方法只考虑项目集中项目出现的次数,而项目集的利润可能不同,等提出了一种依赖于紧凑的数据结构 ,采用了一种存储 项集之间关系的估计效用共现策略来提高计算速度。由于找到合适的最小效用阈值对用户比较困难,等提出了挖掘 高效用项集的高效算法 和 ,通过不设置最小效用阈值,能够有效地生成候选项集,从而获得所有高效用项目集。等提出 ,使用效用模式的树结构,用”模式增长”的方式挖掘。同时为了减少候选模式集的数量,该算法提出几种剪枝策略,以达到提高算法性能的目的。王晨等人提出了基于效用模式树的两阶段效用模
6、式挖掘 算法 ,通过删除全局的非候选模式集和降低全局的各个节点的效用值,生成全局的条件效用模式树,进而生成高效用项集。等提出了 算法 ,是一种关于垂直结构的算法,其引入了两个新的剪枝策略,被称为划分效用剪枝和前向效用剪枝。黄坤等人提出一个新的基于差集的高效用项集挖掘方法 算法 ,其引入数据结构项集列表,项集列表只需要存储事务和效用信息。基于隐私保护的高效用模式集挖掘关于隐私保护效用挖掘()的问题,引出了两种新的算法 和 来隐藏敏感项集,使其他用户不能从修改后的数据库中挖掘项目集。高效用项目集挖掘()考虑数量和利润因素来衡量一个项目或项目集是否有利可图。隐私保护效用挖掘()已经成为 的一个关键问
7、题。对于隐藏敏感的高效用项集的问题,提出了一种新的算法,目的是减少挖掘过程中产生的副作用。隐私政策是为阻止数据所有者共享挖掘数据。文献为解决敏感效用的隐藏以及频繁项集的问题,提出了 和 两种关于数据清理的算法 ,其把敏感效用和频繁项集隐藏在修改后的数据库中。该算法不仅能隐藏敏感项集,也能清理数据库。提出了一种基于遗传算法的隐私保护效用挖掘方法 ,其目的是找到合适的事务插入到数据库中,从而隐藏敏感的高效用项目集。如何以更小的副作用隐藏高效用挖掘结果中的敏感高效用项集,保证用户在发布和共享数据时不会造成私密信息泄露。对此提出了基于竞争项分析的保护敏感项集算法 ,根据用户指定保护项来分析出敏感项集。
8、在隐私保护的差分隐私背景下,挖掘结果的有效性已成为我们目前关注的一个重要问题。文献 以频繁挖掘模式(对象集、序列和子图)考察了三个最重要的对象,深入的探讨了满足差分隐私的频繁挖掘问题。文献 提出了一个有效的(,)隐私原则,通过此原则隐私得到了有效地保护。在这个原则的基础上,改进之前的隐私算法并且提出了一个可以满足这类型隐私原则的算法。综合上述分析,本文提出基于差分隐私的高效用项目集挖掘算法 (),数据拥有者使用差分隐私技术在数据发布的过程前对数据进行隐私保护,数据分析者在基于差分隐私上的树结构进行高效用项目集挖掘,使得数据可以抵御任意形式的攻击。差分隐私的高效用模式树 相关描述给定一组有限的项
9、 ,每个项目 ()有一个单位利润 ()项集 是 个不一致项 ,的组成的,其中 ,是 的长度 长度为 的项集称为 项集。一个事务数据库 ,中包含一组事务,其中每个事务 ()都有唯一的标识符,叫做 交易 中的每个项目 都和一个数量 (,)相互关联,即在 中 为购买的数量。太原科技大学学报 年差分隐私常用的两种机制是:拉普拉斯机制和指数机制。一个数据集的实例如表 所示。表 表示了每一项对应的外部权重即利润。表 示例数据库 商品交易列表(,)、(,)、(,)(,)、(,)、(,)、(,)(,)、(,)、(,)(,)、(,)、(,)(,)、(,)、(,)、(,)(,)、(,)、(,)、(,)表 利润表
10、项目利润定义 (项目效用)在事务 中,交易中一个项目的效用表示为 (,),定义为:(,)()(,)()例如,表 中 (,)定义 (项目集 的效用)事务 中项目集的效用表示为 (,),定义为:(,)(,)()例如,表 中 (,)定义 (事务效用)事务 的事务效用表示为 (),定义为:()(,)()例如,表 中 ()定义 (数据库总效用)事务数据库 的总效用就是所有事务效用的总和,定义为:()()例如,表 中 定义 (事务加权利用率)一个项目集的事务加权利用率表示为 (),定义为:()()()例如,表 中 定义 (剩余效用)数据库的总效用表示为时间单位,定义为:(,)()例如,表 中 ()定义 (
11、最小项目效用表)事务 中的事务最小效用值记作 ,以维护所有全局有希望项目的最小项目效用,定义为:()()()例如,表 中 ()(,)定义(最小效用阈值)设 表示由用户设定的百分值,那么最小效用阈值表示为 ,定义为 例如,用户设定的 为 ,那么 定义 (高效用项集)给定项集 及用户指定最小效用阈值 ,若 (),则称项集 为高效用项集 如果若 (),则称项集 为低效用项集,那么它的超集不可能是高效用项集。定义 (机制)给定数据集 ,通过在查询结果添加关于拉普拉斯的噪声,那么随机算法()()提供 差分隐私保护,其中 ()服从尺度参数为 的 分布,公式如下:()()()定义 (指数机制)设随机算法 的
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 隐私 效用 项目 挖掘 算法
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。