分销赏收藏举报申诉 / 13

立即下载开通VIP

当前位置：首页 > 学术论文 > 论文指导/设计 > 基于个性化时空聚类的差分隐私轨迹保护模型.pdf

基于个性化时空聚类的差分隐私轨迹保护模型.pdf

上传人：自信****多点

文档编号：2948929

上传时间：2024-06-11

格式：PDF

页数：13

大小：6.91MB

《基于个性化时空聚类的差分隐私轨迹保护模型.pdf》由会员分享，可在线阅读，更多相关《基于个性化时空聚类的差分隐私轨迹保护模型.pdf（13页珍藏版）》请在咨信网上搜索。

1、NETINFOSECURITY专题论文doi：10.39 6 9/j.is s n.16 7 1-112 2.2 0 2 4.0 1.0 0 82024年第1期基于个性化时空聚类的差分隐私轨迹保护模型一尹春勇1，蒋奕阳2（1.南京信息工程大学计算机学院，南京2 10 0 44；2.南京信息工程大学软件学院，南京2 10 0 44）摘要：随着位置感知设备的普及，轨迹数据已广泛应用于现实生活。然而，轨迹数据通常与敏感标签相关联，不当地分享或发布这些数据可能会泄露用户的隐私，且不同数据的敏感程度互异。针对上述问题，文章提出了基于个性化时空聚类的差分隐私轨迹保护模型。首先，针对轨迹中海量时间数据与隐私

2、保护的需要，文章提出模糊均值聚类算法（FCM算法）；其次，在空间分割的过程中，通过密度进行聚类，并实现个性化调整隐私预算分配的目的，从而提高数据效用；再次，在轨迹合成阶段，对比真实轨迹数据，选择更具代表性的轨迹；最后，在发布阶段，引入Laplace机制对轨迹数目进行隐私保护。为了验证文章所提出的模型在轨迹效用与隐私保护上的成果，将该模型与另外两种模型在4个阶段上进行了比较。实验结果表明，文章所提出的模型在数据效用方面提升15.45%，在相同隐私预算下，隐私保护强度提升至少35.6 2%。关键词：个性化预算分配；差分隐私；时空聚类；轨迹隐私；轨迹发布中图分类号：TP309文献标志码：A文章编号：

3、16 7 1-112 2（2 0 2 4）0 1-0 0 8 0-13中文引用格式：尹春勇，蒋奕阳.基于个性化时空聚类的差分隐私轨迹保护模型 1.信息网络安全，2024,24(1):80-92.英文引用格式：YIN Chunyong,JIANG Yiyang.Differential Privacy Trajectory Protection Model Based onPersonalized Spatiotemporal ClusteringJJ.Netinfo Security,2024,24(1):80-92.Differential Privacy Trajectory Protec

4、tion Model Based onPersonalized Spatiotemporal ClusteringYIN Chunyong,JIANG Yiyang?(1.School of Computer Science,Nanjing University of Information Science and Technology,Nanjing 210044,China,2.School of Sofiware,Nanjing University of Information Science and Technology,Nanjing 210044,China)Abstract:W

5、ith the proliferation of location-aware devices,trajectory data has foundwidespread applications in real-life scenarios.However,trajectory data is often associatedwith sensitive labels,and improperly sharing or disclosing such data can pose privacy threatsto users,with varying levels of sensitivity

6、among different datasets.To address this issue,a differential privacy trajectory protection model based on personalized spatiotemporalclustering was proposed.Firstly,in response to the vast amount of temporal data intrajectories and the need for privacy protection,the fuzzy clustering means algorith

7、m(FCM)收稿日期：2 0 2 3-10-2 7基金项目：国家自然科学基金 6 17 7 2 2 8 2 作者简介：尹春勇（19 7 7 一），男，山东，教授，博士，主要研究方向为网络空间安全、大数据挖掘、隐私保护、人工智能和新型计算；蒋奕阳（19 9 9 一），男，江苏，硕士研究生，CCF会员，主要研究方向为隐私保护和数据挖掘。通信作者：尹春勇80NETINFOSECURITY2024年第1期隐私保护was proposed.Secondly,during the spatial segmentation process,clustering was performedbased on d

8、ensity,and personalized adjustments were made to allocate privacy budgets,thereby enhancing data utility.In the trajectory synthesis phase,a comparison was made withreal trajectory data to select trajectories that were more representative.Finally,the Laplacemechanism was introduced in the release ph

9、ase to protect the privacy of trajectory counts.Tovalidate the achievements of the model in terms of trajectory utility and privacy protection,comparisons were made with various models in four stages.The experimental results indicatea 15.45%improvement in data utility for the proposed model and,unde

10、r the same privacybudget,enhances privacy protection strength by at least 35.62%.Key words:personalized budget allocation;differential privacy;spatiotemporalclustering;trajectory privacy;trajectory publication0引言随着智能车机设备、移动互联网和全球定位系统(GPS)的普及和快速发展,基于位置的服务（LocationBased Service，L BS）得到进一步推广，例如，智能汽车终端、

11、线上打车、位置共享和道路导航等成为生活中的重要部分。这些基于位置的服务通过时间序列、空间位置和行为轨迹的关联性，为用户搭建起了网络空间与现实世界的桥梁。但这些设备提供位置服务的同时，也获取和收集到了大量个人用户的位置和轨迹等隐私信息!。通过这些包含着相关时空信息的精确数据，便可推断出个人用户的住址、生活习惯和工作地点等隐私数据，甚至预测用户的行为 2 。例如，新能源汽车使用车机终端通过互联网与服务器互联，厂商为用户提供便捷服务的同时，也会收集个人用户的位置和轨迹隐私数据 3。一方面，这些数据可能被公布或使用，另一方面也可能会通过网络被其他个人或组织攻击，造成用户隐私泄露 4。因此，如何在发布轨

12、迹数据时保护个人隐私成了目前隐私保护领域的一个重要研究方向 5。近年来，许多研究者在轨迹隐私保护方面的研究已经取得一定的进展,其中主要是K-匿名(K-Anonymity）和差分隐私保护技术（Differential Privacy，D P）。K-匿名技术由SWEENEYI6等人在2 0 0 2 年提出，其核心思想是将数据敏感信息模糊化处理，使得每个数据记录与其所属的同一组中有至少K-1个相似记录，从而隐藏个体的身份。但在实际应用过程中，其所在的服务器需要权衡隐私和实用性之间的关系，可能无法完全抵御针对属性组合的攻击，在算法泛化的过程中也可能导致数据失去一些关键细节。为了解决仍存在的隐私保护问题

13、，DWORK8等人在2 0 0 6 年提出了差分隐私技术，其严谨的数学定义以及独特的量化标准弥补了技术上的缺陷 9 。对于攻击者而言，即使其拥有一定的背景知识，也无法区分个人记录是否包含在数据库中。此外，差分隐私还针对保护对象是否为数值型数据发展出了Laplace机制与高斯机制 10 。对于隐私预算的分配，MCSHERRY1等人在2 0 10 年针对数据集及其子集，提出了并行和串行隐私预算的计算方法，实现了在不同数据中分配不同隐私预算的目的。在轨迹隐私保护领域，随着智慧交通与多功能移动设备的大力发展，基于移动轨迹数据的相关服务需求正快速增长。国家发改委提出的智能汽车创新发展战略中把行驶数据安全

14、管理作为主要任务，轨迹隐私保护需求日渐增强。之前的学者虽进行了大量研究，但仍然存在以下3个问题。1）忽略时间属性：先前的研究往往忽略了轨迹数据中的时间属性。时间属性包括轨迹点被记录的具体时间戳，即每个位置点的时间信息。如用户在某个地点多次出现的时间戳、用户轨迹开始与结束的时间点等。时间属性有助于理解用户活动规律，如果保护不当，攻击者可能通过轨迹数据推断出用户的行为习惯和实时位置。2）选择的位置点代表性弱：轨迹数据由众多位置点组成，需要选择具有代表性的位置点进行保护，但81NETINFOSECURITY专题论文2024年第1期这些点通常涉及用户的个人隐私。如何在保护隐私的同时实现数据效用与隐私保

15、护的平衡仍然是一个待解决的问题。3）数据集中存在无效轨迹数据：在移动用户的轨迹数据中，存在一定比例的无效轨迹，如长时间的停留或超长、超短距离的轨迹。这些轨迹需要在合成阶段进行筛选。为了解决上述问题，本文提出了一种基于个性化时空聚类的差分隐私轨迹保护模型，通过设计时间概化和空间切割轨迹数据的算法，增强了对动态轨迹中时空数据的效用。合理分配隐私预算并量化隐私保护强度，能够有效抵御多种已知攻击。本文的主要贡献如下。1）在现有模型的基础上,进一步处理了时间属性。首次使用模糊均值聚类算法（FCM算法）对数据进行时间概化，有效减少了有背景知识的敌对攻击引起的隐私泄露风险，同时提高了处理后数据的可用性。2）

16、通过密度聚类方法对空间位置进行处理，提出了密度聚类差分隐私算法（DBADP算法），针对不同密度的区域调整隐私预算，有效保护特殊地区和人群的位置信息。在轨迹点的选择上，引人了分值分配方法，优先选择高效用数据集，从而提高合成后轨迹的可挖掘性。3）合成高效的轨迹数据集。与真实记录对比，删除异常数据以增强发布轨迹的可用性，添加Laplace噪声以抵御有相关背景知识的敌手攻击。4）使用微软T-Drive真实数据集与合成数据集进行测试。结果表明，提出的模型在满足差分隐私的同时具有较高的数据可用性，可满足不同程度的隐私保护需求。本文其余部分组织架构如下：在第1章中，回顾该研究的历史工作，并进行简单总结；在第

17、2 章中，介绍了PSDPTP隐私保护模型；在第3章中，对提出的模型进行对比实验；在第4章中进行全文总结，同时展望未来的研究方向。1相关工作轨迹隐私保护用于保护个体的轨迹数据（如移动设备的GPS轨迹和出行记录等），旨在确保发布或分享原始轨迹数据时，不会泄露个体的敏感信息，如居住地、工作地点和日常行程等。通常引入差分隐私添加噪声，并处理原始轨迹，以降低隐私泄露的风险，同时仍然允许对轨迹数据进行合理的分析和应用。在差分隐私的框架中，为了处理大量位置数据，通常采用聚类算法。例如，SUN12等人改进了密度峰值聚类（Density Peak Clustering，D PC)，解决了参数敏感和需要人工干预的

18、问题。他们提出了一种自适应时空聚类轨迹算法，该算法结合了时间维度并改进了Hausdorff距离测量方法，用于生成具有时间同步的子轨迹以进行相似度测量。此外，其引人了K最近邻算法 13（K-NearestNeighbor，K NN）的思想，重新定义了局部密度，提高算法聚类效果的同时，增强了算法的鲁棒性。单一的聚类方法在应对复杂轨迹数据时，存在时间开销大、结果不准确等问题。YAO14等人提出一个全面的发布算法，该算法基于密度聚类以区分不同的点，引人了图模型（Graph-Based）记录敏感信息和轨迹点之间的关系，同时添加噪声实现了隐私保护。最终通过遍历和更新图的方式生成轨迹，得到了高效用的轨迹数据

19、。与基于密度的划分相比，基于层次的划分具有更低的时间开销，GUI15等人提出了一种基于差分隐私的轨迹数据发布方法（Trajectory Data Publication Basedon Differential Privacy，T D D P)。该方法使用K-Means+算法将每个时间戳的位置数据聚类成不同的类别，然后通过指数机制选择每个类别的代表性位置。他们设计了一个采样机制来形成泛化轨迹数据，位置数据根据不同的时间戳，从代表性位置中进行采样，从而形成泛化轨迹。TDDP方法可以避免生成非语义的代表性位置，并确保泛化轨迹能够抵抗过滤攻击，但传统的均值聚类算法合并轨迹效率低。LIU16等人提出改

20、进的K均值聚类算法（IK-Meansl）对位置区域进行聚类，然后将簇中的所有点替换为簇的中心点。同时利82NETINFOSECURITY2024年第1期隐私保护用阶梯（Staircase）机制 17 扰动簇中心，以提高隐私保护水平。他们提出了一种有界的Staircase噪声生成算法，用于扰动广义轨迹的真实计数。实验表明，其提出的发布方法在数据实用性和效率方面明显优于现有方法。随着智能车机的应用与发展，轨迹隐私保护具有了现实使用场景。CAI18等人在车联网背景下，提出一种基于差分隐私保护的算法（DiffermentiallyPrivateTrajectory Database，D PT D），该

21、算法采用时间戳对三维轨迹数据进行划分，通过聚类生成轨迹，且构建了四叉树来表示位置数据，通过随机选择叶节点中的实际质心来进行发布。此外，他们基于马尔可夫假设 19 （MarkovAssumption）构建了噪声前缀树，其仅在树的一半层级添加噪声，减少开销的同时也保护了用户隐私。在隐私预算的分配上，与传统的固定预算分配不同，其采用了层级公式化添加预算，该方法即节省了隐私预算，又提高了数据的可用性。由于用户数据的海量化与多样化，严格的轨迹场景具有较大的局限性，为此越来越多的学者开始着手实现大规模轨迹隐私保护框架模型。ZHANG20等人提出了一种改进的差分隐私聚类算法（DPK-Means），该算法使用

22、轮廓系数来定量评估每次迭代的聚类效果，并向不同的簇添加不同的噪声。为了适应大量数据，他们在MapReduce框架 2 1 下进行算法设计，显著提高了轨迹聚类数据的可用性。GURSOY(22等人提出了一种基于差分隐私的轨迹数据发布框架DP-Star。该框架借助于最小描述长度（Minimum Description Length,MDL）对初始轨迹进行归一化，构建密度网格并添加噪声，保证数据效用，同时满足差分隐私。最后对轨迹中的中间点使用私有马尔可夫迁移模型进行保存，这在轨迹效用与精度方面有着显著优势。随着智能计算的发展，一些学者在轨迹隐私保护中引人机器学习。CHEN/23等人基于循环神经网络(R

23、ecurrentNeural Network，R NN)，提出了一种动态轨迹隐私保护方案（RNN-DP），利用神经网络的预测功能来判别用户状态。同时设计预判机制提高隐私保护水平，该方案具有较高的创新性与可用性。ZHANG24等人则是基于长短时记忆网络LSTM25和对抗网络提出轨迹数据隐私保护方案（LSTM GAN Differential Privacy，L G A ND P)，该方案设计了一个轨迹损失函数，用于判断模型训练出的合成轨迹的相似性损失。实验结果表明，LGANDP可以更好地保证轨迹数据的隐私和可用性之间的平衡。此外，部分学者也与其他方向相结合。例如，CHENG26等人提出基于语义相

24、似性的停留点和频繁子轨迹的隐私预算分配方法，通过语义自动识别位置的隐私级别，从而保护隐私数据。从轨迹的合成与筛选角度分析，将现存的模型分为3类：1）由模型中的算法根据处理完善的位置数据直接合成所需的轨迹数据，没有单独的筛选步骤 15,16,18 ；2）有选择地对轨迹进行筛选合成，例如，通过是否包含关键位置数据进行筛选 2 ，或是简单地按比例筛选 2 0 等；3）采用合成与筛选结合的方式 2 2.2 3，但会受到位置数据集效用的影响，产生部分难以判别的数据。在面对复杂且样本量大的数据集时，上述方法往往不能在时间开销与效用上取得良好的平衡。从隐私预算分配角度分析，上述方法针对隐私预算分配较为单一，

25、不能分配不同阶段的隐私预算。因此，本文提出个性化的隐私预算分配，在时间属性和空间属性上进行多聚类个性化分配，以应对多场景的隐私保护需求。对于轨迹的时间空间属性，本文提出模糊均值聚类算法（Fuzzy ClusteringMeans，FC M）和密度聚类差分隐私算法（Density-Based Average Differential Privacy,DBADP),以处理轨迹数据集,确保数据的高可用性。首先，通过时空聚类处理后，位置数据集具有高可用性，因此根据位置数据合成的轨迹数据能够满足数据挖掘与分析的要求。然后，与真实数据进行对比，筛选出真实且高效的数据集。最后，在发布阶段添加噪声保护用户隐私

26、。2基于个性化时空聚类的差分隐私轨迹保护模型本文提出的轨迹保护模型旨在为海量时空位置数据提供个性化的隐私保护服务。该模型通过设计多种83NETINFOSECURITY专题论文2024年第1期LI27等人针对位置的隐私保护，采用了分配不同隐私聚类算法，针对轨迹时间和空间属性个性化添加噪声，以更好地保护移动用户的个人隐私。在轨迹合成阶段，通过合成和筛选轨迹，确保数据效用，并提高轨迹数据的可挖掘性。此模型经过验证,满足差分隐私的需求。现详细介绍基于个性化时空聚类的差分隐私轨迹保护模型(Personalized Spatiotemporal Clustering of Differential P

27、rivacy TrajectoryProtection，PSD PT P），重点阐述其时空轨迹属性处理流程和核心算法，并提供相应的轨迹发布算法。PSDPTP模型框架如图1所示。时间概化空间切割调整cps计算来属度2FCM初始数据库轨迹选取与合成位置选取异常值处理2位置数据库PSDPTP模型框架分为时间概化、空间切割、轨迹选取与合成和轨迹发布4个部分。在时间概化部分，针对企业中存在大量轨迹数据集分布复杂的情况，提出了模糊均值聚类算法（FCM算法），该算法根据不同时间段进行聚类，适合时间序列数据。同时在隶属度中加人个性化调整的Laplace噪声，对聚类中心进行扰动，保护用户在具体时段的位置隐私。然

28、后，处理位置数据。考虑到不同位置的数据密度影响，本文提出了结合密度和划分思想的密度聚类差分隐私算法（DBADP），并人工调整了时间和空间属性上的隐私预算，确保数据效用的同时实现个性化的轨迹隐私保护。在轨迹合成阶段，与真实的轨迹数据集进行比较，并在有效的轨迹数据集中加入Laplace噪声，干扰实际轨迹数量，从而有效保护个人用户的隐私轨迹数据。完成上述的步骤后，发布最终的合成轨迹。该模型的4个部分使用到的参数及其含义如表1所示。2.1时空数据处理对于轨迹集中的具体位置点，针对时间和空间属性，本文提出了两种不同的聚类方法。即有助于处理表1模型参数及其含义参数含义原始轨迹D时间概化后的数据集DG时空处

29、理后的数据集时刻P区域L中的分组数P分区中组的集合tc真实轨迹数量laLaplace噪声rc发布的轨迹数据集时间切片的FCM算法和可以处理密度位置的DBADP均值对比设置收用DBADP2更新中心械化数据库轨速过滤图1PSDPTP模型框架算法。两种聚类方法分别基于层次和密度划分，能够高效处理时空数据。关键的位置数据可以直接影响轨迹集的变化趋势，因此对位置点的处理尤其重要。轨迹发布轨速数目活加Laphc美声保护与发布预算的方法，在处理的各个部分添加噪声，从而更好地保护用户隐私，但其没有划定隐私预算的范围。基于此，本文提出将总的隐私预算分为两个部分：时间预算V和空间预算-V，该方式既保护了个人隐私数

30、据，也尽可能提高了数据效用，便于对合成的轨迹数据进行数据分析。2.1.1时间概化在轨迹数据的处理上，与传统固定时间段采集时间戳的方法不同，在数据获取日益便捷的背景下，某段时间戳内可能会存在大量位置点。因此，如何在简化点的同时保留轨迹的细节和可挖掘性成为一个需要解决的问题。现有方法通常只是对数据点进行简单分类处理，并没有考虑到时间背景因素。简单的筛选方法不能保证轨迹数据的效用，同时可能会泄露用户的时间隐私。为了解决存在的问题，本文提出基于模糊均值聚类的时间概化算法，如算法1所示，该算法可以有效处理含有时间属性的序列数据。算法1FCM算法输入：原始轨迹数据集予输出：时间概化后数据集D初始化聚类中心

31、C和矩阵隶属度，设置停止条件根据公式（2）更新矩阵（x i,c)）84NETINFOSECURITY2024年第1期隐私保护对于数据集T中的每个数据点x，对于簇中心C中的每一个c,根据公式（2）计算隶属度(xi,ci)更新簇中心矩阵，对于C中的每一个c根据公式（3）计算新的聚类中心Cj，并检查是否满足停止条件，不满足则从步骤2送代对于更新后的xi,Cj，放人新的集合D模糊均值聚类算法的目标是将整个时间段分成若干个相等的时间间隔，然后从每个时间间隔中选择多个具有代表性的时间属性的轨迹点。由于各时间段中数据点数量不同，且在真实情况下不同时间段的数据效用存在差异，例如，在交通高峰时段，轨迹在单位时间

32、内变化较小，但仍会产生大量轨迹数据，因此应将这种时间久变化小的时间段分成较小的时间间隔，反之亦如此。在聚类过程中，每个数据点和每个聚类都有其对应的隶属度。隶属度 2 8 是表示某个点属于某个聚类的程度的值。对于某个聚类来说，某个数据点的隶属度如果接近1,说明该数据点高度属于这个聚类；如果接近0，则说明该数据点与此聚类关系较弱。通过引人隶属度计算，可以了解数据点与每个聚类中心的关系，并根据相似性程度对数据点进行更精细的分类。首先，初始化聚类中心，根据不同的时间间隔可以个性化选取k个中心的初始值。将时刻间隔映射成时间轴上的距离，对于不同时刻的i，j，其欧式距离如公式（1）所示。dis(ti,ti)

33、=2(t,k-t,k)k-1其中，t,k表示数据集中某个点的特征值，n表示特征的数量。然后，根据隶属度矩阵公式，计算不同时间点的隶属度，并添加个性化的Laplace噪声以保护隐私。第i个数据点对第j个聚类中心的隶属度如公式（2）所示。dis(xi,ci)mm-1(xi,cj)k=idis(xi,ck),Laplaceo,&其中，m是模糊度参数，用于控制模糊程度，c代表当前的聚类中心，是隐私预算的分配率。最后，根据计算出的隶属度更新聚类中心，更新公式如公式（3）所示。E(x,c,)x)Cj=E(xi,c)通过计算新的聚类中心，迭代此步骤，直至达到最大迭代次数或数据点与聚类中心之间的距离差小于规定

34、的阈值。由于隶属度允许数据点在多个聚类中心之间分配，异常值或噪声点的隶属度值通常较低，从而减小它们对聚类结果的影响。最终获得的聚类质心更适应于复杂时间切片的数据分布，并提供更丰富的信息以解释和理解时间切片聚类结果。经过时间泛化后的数据如图2 所示。图2 FCM泛化结果2.1.2 空间切割在处理轨迹数据的空间属性时，常见的方法包括网格划分、多叉树划分和传统聚类划分。然而，这些方法通常追求普适性的隐私保护，未能根据实际空间(1)属性对不同区域进行个性化的隐私保护。为解决这个问题,本文提出密度聚类差分隐私算法（DBADP算法）,如算法2 所示，针对不同密度的区域进行聚类，实现个性化的差分隐私保护，并

35、结合区域的时间属性，以满足用户多维度隐私保护的需求。算法2 DBADP算法输入：时间概化后的数据集D2.-1输出：时空处理后的数据集DG+选择参数eps与min，计算欧氏距离分辨核心点与边界点（2）进行循环，若核心点未分配到簇，则创建新的簇，并将密度可达的点添加到该簇对于分组数据集P中的每个点s，使用means+计算簇中心并将其放人集合r中(3)85NETINFOSECURITY专题论文2024年第1期对数据集D中的每个时刻t，计算分区组(R,P)集合r中的每个簇i使用公式（4）和（5）计算每个分区中的效用值U(D,P)依据最大效用值和公式（6）确定分区P中的r位置分区，选中在分区组Pmax中

36、的每个r并准备链接轨迹在空间切割的过程中，基于密度划分的聚类思想，通过调整参数，将高密度区域单独划分。通常认为这类区域更容易受到具有背景知识的敌手攻击，因此需要特别保护。然后，在不同簇中结合数据集的特殊位置特性，将划分的聚类思想与差分隐私相结合，设置效用函数U来选择高可用性的点，以代表其所在簇，从而实现对特殊位置数据集的最优选取。首先，基于密度聚类进行划分，选择合适的最大半径eps与域内的最小点min。根据设定的密度大小将区域划分为P个组，较小的eps和min会导致更多的划分组和分配区域，从而保留了更多的轨迹细节。这样虽提高了数据效用，但计算资源消耗将呈指数级增长，需要在多次实验中实现二者的平

37、衡。然后，在时间t，得到了s个未选定的分簇，它们都隶属于集中的区域L。在s个分簇中采用均值对比方法，即选定一个点，并计算其与簇内其他点的距离。通过多次迭代选择出最具有代表性的点，形成有效的集合r。最后，定义效用函数U，该函数用于计算未选定分簇s的效用值，即在当前区域内的数据效用水平。其中，t;(i=1,2,n)代表第i个分组中的位置点，效用函数的计算如公式（4）所示。AveDis(P)U(D,P)=AveDis(P)其中，平均距离计算方法如公式（5）所示。AveDis(P)=mLpl/nD:2,Dis(T,T)1其中，Dp表示P个组中的s个簇中k个位置的集合，Lps表示L区域内P个分组的集合。

38、对于分区P,中的s个簇中的集合PsiEr，设置的函数满足差分隐私中的指数机制。在簇内选择具有高分值的位置作为代表性的点，即代表分区。分值Scoi的计算方法如公式（6）所示。(1-):exp(D,P)2uSco;=-Zexp(S-0)u(D.P)2uPer对于隐私预算，进行了个性化的空间位置分配，以有效保护高密度区域集合。经过空间切割后的位置数据，实现了从s个簇中选取具有代表性的集合，在保持轨迹精度的条件下，完成了对轨迹中重要位置的时空隐私的个性化差分隐私保护。经过空间切割的数据集如图3所示。图3空间切割结果2.2轨迹的选取与合成在处理大量可选的位置数据集时，为确保整体框架的高效运行，有必要针对

39、性地选取位置以合成轨迹数据。在轨迹选取时，建立了一种判断的机制，用于删除异常轨迹数据，从而进一步提高发布轨迹的数据效用，轨迹发布算法如算法3所示。算法3轨迹发布算法（4)输入：时空处理后的数据集DG输出：发布的轨迹数据集rc合并相同的原始轨迹，计算真实轨迹数据tc对在 1,n中的所有 p,q，为 tc,均值，Af=max(tcp-(5)tcq l3,b=Af/,=2使用公式（7）中概率密度函数计算la对于每一个不为0 的tc，计算rc;=tc;+lai对于rci，若对应的真实轨迹计数tc,的值为0，则删除此条记录,返回(rcili=1,2,N)(6)P.986NETINFOSECURITY20

40、24年第1期隐私保护在特定的区域内，考虑到某一时刻t的场景。假设同一聚类中所有移动用户的位置坐标被整体泛化为相同的位置点。在这一时刻，所有位置数据被汇总到一个包含了36 个位置点的集合中。在给定的54个固定时间戳下，会产生高达36 54种不同的轨迹变化。这个数据集涵盖了所有可能的轨迹合成情况。尽管采取泛化策略可以高效地保护移动用户的个人隐私，但同时也面临着大量计算资源消耗的挑战。为了确保基于位置的服务（LBS）的有效性，必须避免生成不存在的异常虚假轨迹数据。因此，在轨迹选取过程中，将经过处理的轨迹数据与真实轨迹数据进行对比，并统计合并后的真实记录数，记为True。当发现True-0时，将其视为

41、异常轨迹数据，并立刻删除这些轨迹数据。此方法不仅进一步降低了发布虚假空轨迹数据的风险，且增加了轨迹数据发布的有效性。为了提高轨迹数据的可用性，对比原始数据集与产生的新轨迹数据集，统计包含真实记录的轨迹数量。若监测到记录数为0，表示新生成的轨迹数据为空，因此将其标记为异常数据，不予发布。该方案提升了轨迹数据的实用性，进一步增强了合成轨迹的数据效用。通过以上步骤，在轨迹选取与合成阶段，能够有效防止虚假数据的传播，从而保证了基于位置的服务的可用性，增强了数据的应用价值。合成信息如表2所示。表2 轨迹合成信息新轨迹数据集与新轨迹相似的原始轨迹131112T,T,T,T一TT1112312一T4,T。一

42、2.3轨迹的发布轨迹合成后，需要进行数据发布。然而，直接发布统计数据可能会导致潜在的隐私泄露问题，尤其是对于那些统计数值为1的轨迹。如果攻击者具有一定的背景知识，他们很容易猜测到轨迹的所有者，从而导致隐私泄露。因此，在进行轨迹发布操作时，首先对原始轨迹的数量进行计数，并引人差分隐私中的Laplace机制，为每个真实数据点添加Laplace噪声，以抵御可能具有背景知识的攻击。通过Laplace机制计算区域内轨迹添加噪声之后的期望值Num，其中Laplace函数的概率密度记为f(s)。D-i区域内的True值为0。在区域内添加噪声量的概率表示为(x,e)dx，可得公式（7)。Numi=|D-LlJ

43、 f(x,e)dx经过处理后的噪声计数会被包含在最终输出数据集当中，数值为区间的随机值。总计数与原始数据集相同时，则停止算法，发布数据。经过Laplace机制对记录数进行加噪后，生成的数据集包括轨迹数据集和加噪后记录数。此时，只需发布经过处理的轨迹数据集，完成后的发布轨迹如图4所示。真实记录数是否异常2否1022040(7)图4发布轨迹效果是2.4隐私保护度分析否本节首先对本文提出的轨迹隐私保护模型能够有否效抵御多种攻击进行说明与解释，然后对模型的安全是性进行分析，并给出对应的证明。是本文模型在不同阶段的算法能够有效抵御多种已知的攻击。在时空聚类阶段将用户的位置数据进行聚类，得到可挖掘的位置集

44、。同时使用Laplace机制与指数机制对聚类中心进行扰动，能够有效抵御个体身份87NETINFOSECURITY专题论文2024年第1期的关联攻击和带有时空属性信息的属性关联攻击。在轨迹合成与选取阶段，对数据集进行筛选并在有效轨迹数目中加入噪声，以抵御基于差分隐私的推断攻击，使攻击者无法对数据集进行分析。依据差分隐私的并行和串行的组合特性，为了证明PSDPTP模型满足差分隐私的严谨公式要求，需要证明其在各个阶段都满足差分隐私。定理1在时间概化阶段提出了模糊均值聚类算法（FCM算法），对时间属性加入Laplace噪声。该算法在给定隐私预算1，时间t内满足-差分隐私的定义。对于函数G假设其敏感度为

45、Sen(G)，并假设算法F是将独立的噪声添加到函数G中的算法。在PSDPTP模型中，基于条件概率函数的知识，定义D为输出的数值，对于数据集T和T，满足公式（8）。因此，FCM算法满足差分隐私的定义。(G(T);-D.)expPrF(T)-DPrF(T2)-D)ITexp-:(G(T2),-G(T),)=expSen(G)e定理2 在空间切割部分提出密度聚类差分隐私算法（DBADP算法），该算法基于密度的聚类选取高效用的位置数据集，使用效用函数进行选择。假设q为查询函数，u是效用函数，输出高效用数据集，且结果满足差分隐私定义。定义(d)表示成对应比例的选择概率s，由此得知Jexp(eq(T,s)

46、u(s)ds有界。数据集T中单一记录的变化最多导致变化q，根据概率密度函数有公式（9)。exp(q(T,s)u(s)Jexp(cq(T,s)u(s)ds选择q1的查询函数，所以，(d)满足-差分隐私。定理3PSDPTP模型满足&-差分隐私。在轨迹发布阶段再次添加Laplace噪声，由定理1可证明满足差分隐私。基于差分隐私的组合特性，假设FCM算法满足1-差分隐私，DBADP算法满足&2-差分隐私，轨迹发布算法满足&-差分隐私，则可推导出PSDPTP模型满足差分隐私，这里=1+2+83。3实验与性能分析为了验证提出的基于个性化时空聚类的差分隐私轨迹保护模型的隐私保护程度和处理后的数据效用，在实验

47、与分析部分采用了亚洲微软研究院的T-Drive预研项目数据进行了一系列实验2 9,30。该数据集涵盖了10357辆小车一周的轨迹数据，总共约有150 0 万个数据点，轨迹的累计距离高达90 0 万千米。每条轨迹中包含的节点信息涵盖了出租车的ID、记录时间，以及Sen(G)当前位置的纬度和经度。尽管这些轨迹均在同一周内e(G(T2),-D.)iexp-e(G(T2);-G(T),)Sen(G)exp(cAq)sexp(-cq)Sen(G)记录，但它们的详细时间范围却存在巨大差异，为减少差异带来的影响，选取特定时间段的数据，以相同(8)间隔为基准进行研究。为增强数据的可分析性，对轨迹进行了精准的细

48、化处理，将其划分为包含54个节点的子轨迹，与以往的模型相比，在数据细粒度上更好地反映了轨迹的实用性。本次实验选用Python3.8编写，实验平台为Windows11，使用IntelCorei7-12650HCPU4.7GHzx16CPU 和 NVIDIA GeForce RTX4060GPU加速模型训练。本章通过与已有模型进行多组数据重复实验，证明本文所提出模型的优越性。本文将实验分为了以下4个组别，分别为时空聚类后新数据的时间开销、轨迹合并的时间开销、发布后轨迹的数据效用和发布后轨迹的隐私保护强度。3.1时空聚类时间开销个性化的时空聚类开销是PSDPTP模型处理数据e2Aq(9)e集的主要时

49、间开销，图5是3种模型时间开销对比情况。从时间开销对比图中可以看出，时间开销与用88NETINFOSECURITY2024年第1期隐私保护户数量呈正相关，与隐私预算呈负相关。随着隐私预算的增加，用户数据的隐私保护程度下降，时间开销降低。454035S/3025-2015100.10.20.30.40.50.60.70.87060S/上5040-30200.10.20.30.40.50.60.70.830.027.525.0/回印上22.520.017.515.012.510.0.10.20.30.40.50.60.70.88070a）PSD PT P时间开销8070806050用户数量/组60

50、50用户数量/组b）T PRSD P时间开销70图53种模型时间开销对比4030403060c)TPPDP时间开销20由图5可知，在同等条件下，与TPRSDP31模型和TPPDP32模型进行对比，在选取相同隐私预算与用户数量的情况下，通过比较执行时间轴上的详细时间可以看出，PSDPTP模型时间开销远小于TPRSDP模型，这是因为本文提出的模型在处理位置数据时进行了优化。在时间维度上，考虑到了不同时间段切片数量的不同，通过聚类寻找效用更高的切片；在空间维度上，本文提出基于密度的算法，减少处理的位置数据量，保证了在时空聚类的时间开销减少的同时，仍能找出具有代表性的位置点。但PSDPTP模型时间开销

下载提示：咨信网仅提供存储空间/不修改/不编辑

【自信AI创作助手】【自信AI导航】
1、请仔细预览页面，基本判断完整性，对于直接下载带来的问题请及时与客服沟通；下载的文档，不会出现我们的网址水印。
2、该文档所得收入（下载+内容+预览）归上传者、原创作者；如果您是本文档原作者，请点此认领！既往收益都归您。

同意并开始全文预览

举报此文档有问题？有机会获“体验VIP”奖励！

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

10 金币 0人已下载

申诉本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请申请举报、认领或删除 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 基于个性化时空隐私轨迹保护模型

咨信网温馨提示：
1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时私信或留言给本站上传会员【自信****多点】，需本站解决可联系【微信客服】、【 QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”（推荐），意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：4008-655-100；投诉/维权电话：4009-655-100。