基于个性化时空聚类的差分隐私轨迹保护模型.pdf
《基于个性化时空聚类的差分隐私轨迹保护模型.pdf》由会员分享,可在线阅读,更多相关《基于个性化时空聚类的差分隐私轨迹保护模型.pdf(13页珍藏版)》请在咨信网上搜索。
1、NETINFOSECURITY专题论文doi:10.39 6 9/j.is s n.16 7 1-112 2.2 0 2 4.0 1.0 0 82024年第1期基于个性化时空聚类的差分隐私轨迹保护模型一尹春勇1,蒋奕阳2(1.南京信息工程大学计算机学院,南京2 10 0 44;2.南京信息工程大学软件学院,南京2 10 0 44)摘要:随着位置感知设备的普及,轨迹数据已广泛应用于现实生活。然而,轨迹数据通常与敏感标签相关联,不当地分享或发布这些数据可能会泄露用户的隐私,且不同数据的敏感程度互异。针对上述问题,文章提出了基于个性化时空聚类的差分隐私轨迹保护模型。首先,针对轨迹中海量时间数据与隐私
2、保护的需要,文章提出模糊均值聚类算法(FCM算法);其次,在空间分割的过程中,通过密度进行聚类,并实现个性化调整隐私预算分配的目的,从而提高数据效用;再次,在轨迹合成阶段,对比真实轨迹数据,选择更具代表性的轨迹;最后,在发布阶段,引入Laplace机制对轨迹数目进行隐私保护。为了验证文章所提出的模型在轨迹效用与隐私保护上的成果,将该模型与另外两种模型在4个阶段上进行了比较。实验结果表明,文章所提出的模型在数据效用方面提升15.45%,在相同隐私预算下,隐私保护强度提升至少35.6 2%。关键词:个性化预算分配;差分隐私;时空聚类;轨迹隐私;轨迹发布中图分类号:TP309文献标志码:A文章编号:
3、16 7 1-112 2(2 0 2 4)0 1-0 0 8 0-13中文引用格式:尹春勇,蒋奕阳.基于个性化时空聚类的差分隐私轨迹保护模型 1.信息网络安全,2024,24(1):80-92.英文引用格式:YIN Chunyong,JIANG Yiyang.Differential Privacy Trajectory Protection Model Based onPersonalized Spatiotemporal ClusteringJJ.Netinfo Security,2024,24(1):80-92.Differential Privacy Trajectory Protec
4、tion Model Based onPersonalized Spatiotemporal ClusteringYIN Chunyong,JIANG Yiyang?(1.School of Computer Science,Nanjing University of Information Science and Technology,Nanjing 210044,China,2.School of Sofiware,Nanjing University of Information Science and Technology,Nanjing 210044,China)Abstract:W
5、ith the proliferation of location-aware devices,trajectory data has foundwidespread applications in real-life scenarios.However,trajectory data is often associatedwith sensitive labels,and improperly sharing or disclosing such data can pose privacy threatsto users,with varying levels of sensitivity
6、among different datasets.To address this issue,a differential privacy trajectory protection model based on personalized spatiotemporalclustering was proposed.Firstly,in response to the vast amount of temporal data intrajectories and the need for privacy protection,the fuzzy clustering means algorith
7、m(FCM)收稿日期:2 0 2 3-10-2 7基金项目:国家自然科学基金 6 17 7 2 2 8 2 作者简介:尹春勇(19 7 7 一),男,山东,教授,博士,主要研究方向为网络空间安全、大数据挖掘、隐私保护、人工智能和新型计算;蒋奕阳(19 9 9 一),男,江苏,硕士研究生,CCF会员,主要研究方向为隐私保护和数据挖掘。通信作者:尹春勇80NETINFOSECURITY2024年第1期隐私保护was proposed.Secondly,during the spatial segmentation process,clustering was performedbased on d
8、ensity,and personalized adjustments were made to allocate privacy budgets,thereby enhancing data utility.In the trajectory synthesis phase,a comparison was made withreal trajectory data to select trajectories that were more representative.Finally,the Laplacemechanism was introduced in the release ph
9、ase to protect the privacy of trajectory counts.Tovalidate the achievements of the model in terms of trajectory utility and privacy protection,comparisons were made with various models in four stages.The experimental results indicatea 15.45%improvement in data utility for the proposed model and,unde
10、r the same privacybudget,enhances privacy protection strength by at least 35.62%.Key words:personalized budget allocation;differential privacy;spatiotemporalclustering;trajectory privacy;trajectory publication0引言随着智能车机设备、移动互联网和全球定位系统(GPS)的普及和快速发展,基于位置的服务(LocationBased Service,L BS)得到进一步推广,例如,智能汽车终端、
11、线上打车、位置共享和道路导航等成为生活中的重要部分。这些基于位置的服务通过时间序列、空间位置和行为轨迹的关联性,为用户搭建起了网络空间与现实世界的桥梁。但这些设备提供位置服务的同时,也获取和收集到了大量个人用户的位置和轨迹等隐私信息!。通过这些包含着相关时空信息的精确数据,便可推断出个人用户的住址、生活习惯和工作地点等隐私数据,甚至预测用户的行为 2 。例如,新能源汽车使用车机终端通过互联网与服务器互联,厂商为用户提供便捷服务的同时,也会收集个人用户的位置和轨迹隐私数据 3。一方面,这些数据可能被公布或使用,另一方面也可能会通过网络被其他个人或组织攻击,造成用户隐私泄露 4。因此,如何在发布轨
12、迹数据时保护个人隐私成了目前隐私保护领域的一个重要研究方向 5。近年来,许多研究者在轨迹隐私保护方面的研究已经取得一定的进展,其中主要是K-匿名(K-Anonymity)和差分隐私保护技术(Differential Privacy,D P)。K-匿名技术由SWEENEYI6等人在2 0 0 2 年提出,其核心思想是将数据敏感信息模糊化处理,使得每个数据记录与其所属的同一组中有至少K-1个相似记录,从而隐藏个体的身份。但在实际应用过程中,其所在的服务器需要权衡隐私和实用性之间的关系,可能无法完全抵御针对属性组合的攻击,在算法泛化的过程中也可能导致数据失去一些关键细节。为了解决仍存在的隐私保护问题
13、,DWORK8等人在2 0 0 6 年提出了差分隐私技术,其严谨的数学定义以及独特的量化标准弥补了技术上的缺陷 9 。对于攻击者而言,即使其拥有一定的背景知识,也无法区分个人记录是否包含在数据库中。此外,差分隐私还针对保护对象是否为数值型数据发展出了Laplace机制与高斯机制 10 。对于隐私预算的分配,MCSHERRY1等人在2 0 10 年针对数据集及其子集,提出了并行和串行隐私预算的计算方法,实现了在不同数据中分配不同隐私预算的目的。在轨迹隐私保护领域,随着智慧交通与多功能移动设备的大力发展,基于移动轨迹数据的相关服务需求正快速增长。国家发改委提出的智能汽车创新发展战略中把行驶数据安全
14、管理作为主要任务,轨迹隐私保护需求日渐增强。之前的学者虽进行了大量研究,但仍然存在以下3个问题。1)忽略时间属性:先前的研究往往忽略了轨迹数据中的时间属性。时间属性包括轨迹点被记录的具体时间戳,即每个位置点的时间信息。如用户在某个地点多次出现的时间戳、用户轨迹开始与结束的时间点等。时间属性有助于理解用户活动规律,如果保护不当,攻击者可能通过轨迹数据推断出用户的行为习惯和实时位置。2)选择的位置点代表性弱:轨迹数据由众多位置点组成,需要选择具有代表性的位置点进行保护,但81NETINFOSECURITY专题论文2024年第1期这些点通常涉及用户的个人隐私。如何在保护隐私的同时实现数据效用与隐私保
15、护的平衡仍然是一个待解决的问题。3)数据集中存在无效轨迹数据:在移动用户的轨迹数据中,存在一定比例的无效轨迹,如长时间的停留或超长、超短距离的轨迹。这些轨迹需要在合成阶段进行筛选。为了解决上述问题,本文提出了一种基于个性化时空聚类的差分隐私轨迹保护模型,通过设计时间概化和空间切割轨迹数据的算法,增强了对动态轨迹中时空数据的效用。合理分配隐私预算并量化隐私保护强度,能够有效抵御多种已知攻击。本文的主要贡献如下。1)在现有模型的基础上,进一步处理了时间属性。首次使用模糊均值聚类算法(FCM算法)对数据进行时间概化,有效减少了有背景知识的敌对攻击引起的隐私泄露风险,同时提高了处理后数据的可用性。2)
16、通过密度聚类方法对空间位置进行处理,提出了密度聚类差分隐私算法(DBADP算法),针对不同密度的区域调整隐私预算,有效保护特殊地区和人群的位置信息。在轨迹点的选择上,引人了分值分配方法,优先选择高效用数据集,从而提高合成后轨迹的可挖掘性。3)合成高效的轨迹数据集。与真实记录对比,删除异常数据以增强发布轨迹的可用性,添加Laplace噪声以抵御有相关背景知识的敌手攻击。4)使用微软T-Drive真实数据集与合成数据集进行测试。结果表明,提出的模型在满足差分隐私的同时具有较高的数据可用性,可满足不同程度的隐私保护需求。本文其余部分组织架构如下:在第1章中,回顾该研究的历史工作,并进行简单总结;在第
17、2 章中,介绍了PSDPTP隐私保护模型;在第3章中,对提出的模型进行对比实验;在第4章中进行全文总结,同时展望未来的研究方向。1相关工作轨迹隐私保护用于保护个体的轨迹数据(如移动设备的GPS轨迹和出行记录等),旨在确保发布或分享原始轨迹数据时,不会泄露个体的敏感信息,如居住地、工作地点和日常行程等。通常引入差分隐私添加噪声,并处理原始轨迹,以降低隐私泄露的风险,同时仍然允许对轨迹数据进行合理的分析和应用。在差分隐私的框架中,为了处理大量位置数据,通常采用聚类算法。例如,SUN12等人改进了密度峰值聚类(Density Peak Clustering,D PC),解决了参数敏感和需要人工干预的
18、问题。他们提出了一种自适应时空聚类轨迹算法,该算法结合了时间维度并改进了Hausdorff距离测量方法,用于生成具有时间同步的子轨迹以进行相似度测量。此外,其引人了K最近邻算法 13(K-NearestNeighbor,K NN)的思想,重新定义了局部密度,提高算法聚类效果的同时,增强了算法的鲁棒性。单一的聚类方法在应对复杂轨迹数据时,存在时间开销大、结果不准确等问题。YAO14等人提出一个全面的发布算法,该算法基于密度聚类以区分不同的点,引人了图模型(Graph-Based)记录敏感信息和轨迹点之间的关系,同时添加噪声实现了隐私保护。最终通过遍历和更新图的方式生成轨迹,得到了高效用的轨迹数据
19、。与基于密度的划分相比,基于层次的划分具有更低的时间开销,GUI15等人提出了一种基于差分隐私的轨迹数据发布方法(Trajectory Data Publication Basedon Differential Privacy,T D D P)。该方法使用K-Means+算法将每个时间戳的位置数据聚类成不同的类别,然后通过指数机制选择每个类别的代表性位置。他们设计了一个采样机制来形成泛化轨迹数据,位置数据根据不同的时间戳,从代表性位置中进行采样,从而形成泛化轨迹。TDDP方法可以避免生成非语义的代表性位置,并确保泛化轨迹能够抵抗过滤攻击,但传统的均值聚类算法合并轨迹效率低。LIU16等人提出改
20、进的K均值聚类算法(IK-Meansl)对位置区域进行聚类,然后将簇中的所有点替换为簇的中心点。同时利82NETINFOSECURITY2024年第1期隐私保护用阶梯(Staircase)机制 17 扰动簇中心,以提高隐私保护水平。他们提出了一种有界的Staircase噪声生成算法,用于扰动广义轨迹的真实计数。实验表明,其提出的发布方法在数据实用性和效率方面明显优于现有方法。随着智能车机的应用与发展,轨迹隐私保护具有了现实使用场景。CAI18等人在车联网背景下,提出一种基于差分隐私保护的算法(DiffermentiallyPrivateTrajectory Database,D PT D),该
21、算法采用时间戳对三维轨迹数据进行划分,通过聚类生成轨迹,且构建了四叉树来表示位置数据,通过随机选择叶节点中的实际质心来进行发布。此外,他们基于马尔可夫假设 19 (MarkovAssumption)构建了噪声前缀树,其仅在树的一半层级添加噪声,减少开销的同时也保护了用户隐私。在隐私预算的分配上,与传统的固定预算分配不同,其采用了层级公式化添加预算,该方法即节省了隐私预算,又提高了数据的可用性。由于用户数据的海量化与多样化,严格的轨迹场景具有较大的局限性,为此越来越多的学者开始着手实现大规模轨迹隐私保护框架模型。ZHANG20等人提出了一种改进的差分隐私聚类算法(DPK-Means),该算法使用
22、轮廓系数来定量评估每次迭代的聚类效果,并向不同的簇添加不同的噪声。为了适应大量数据,他们在MapReduce框架 2 1 下进行算法设计,显著提高了轨迹聚类数据的可用性。GURSOY(22等人提出了一种基于差分隐私的轨迹数据发布框架DP-Star。该框架借助于最小描述长度(Minimum Description Length,MDL)对初始轨迹进行归一化,构建密度网格并添加噪声,保证数据效用,同时满足差分隐私。最后对轨迹中的中间点使用私有马尔可夫迁移模型进行保存,这在轨迹效用与精度方面有着显著优势。随着智能计算的发展,一些学者在轨迹隐私保护中引人机器学习。CHEN/23等人基于循环神经网络(R
23、ecurrentNeural Network,R NN),提出了一种动态轨迹隐私保护方案(RNN-DP),利用神经网络的预测功能来判别用户状态。同时设计预判机制提高隐私保护水平,该方案具有较高的创新性与可用性。ZHANG24等人则是基于长短时记忆网络LSTM25和对抗网络提出轨迹数据隐私保护方案(LSTM GAN Differential Privacy,L G A ND P),该方案设计了一个轨迹损失函数,用于判断模型训练出的合成轨迹的相似性损失。实验结果表明,LGANDP可以更好地保证轨迹数据的隐私和可用性之间的平衡。此外,部分学者也与其他方向相结合。例如,CHENG26等人提出基于语义相
24、似性的停留点和频繁子轨迹的隐私预算分配方法,通过语义自动识别位置的隐私级别,从而保护隐私数据。从轨迹的合成与筛选角度分析,将现存的模型分为3类:1)由模型中的算法根据处理完善的位置数据直接合成所需的轨迹数据,没有单独的筛选步骤 15,16,18 ;2)有选择地对轨迹进行筛选合成,例如,通过是否包含关键位置数据进行筛选 2 ,或是简单地按比例筛选 2 0 等;3)采用合成与筛选结合的方式 2 2.2 3,但会受到位置数据集效用的影响,产生部分难以判别的数据。在面对复杂且样本量大的数据集时,上述方法往往不能在时间开销与效用上取得良好的平衡。从隐私预算分配角度分析,上述方法针对隐私预算分配较为单一,
25、不能分配不同阶段的隐私预算。因此,本文提出个性化的隐私预算分配,在时间属性和空间属性上进行多聚类个性化分配,以应对多场景的隐私保护需求。对于轨迹的时间空间属性,本文提出模糊均值聚类算法(Fuzzy ClusteringMeans,FC M)和密度聚类差分隐私算法(Density-Based Average Differential Privacy,DBADP),以处理轨迹数据集,确保数据的高可用性。首先,通过时空聚类处理后,位置数据集具有高可用性,因此根据位置数据合成的轨迹数据能够满足数据挖掘与分析的要求。然后,与真实数据进行对比,筛选出真实且高效的数据集。最后,在发布阶段添加噪声保护用户隐私
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 个性化 时空 隐私 轨迹 保护 模型
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。