基于Tsallis熵的近似差分隐私K-means算法.pdf
《基于Tsallis熵的近似差分隐私K-means算法.pdf》由会员分享,可在线阅读,更多相关《基于Tsallis熵的近似差分隐私K-means算法.pdf(13页珍藏版)》请在咨信网上搜索。
1、第 8 卷 第 4 期 信 息 安 全 学 报 Vol.8 No.4 2023 年 7 月 Journal of Cyber Security July 2023 通讯作者:李男,博士,副教授,Email:。本课题得到国家自然科学基金资助项目(No.62472447)资助。收稿日期:2022-01-01;修改日期:2022-03-08;定稿日期:2023-04-20 基于 Tsallis 熵的近似差分隐私 K-means 算法 杨舒丹杨舒丹1,2,李 男1,2,郑文娟3,杜启明1 1战略支援部队信息工程大学 网络空间安全学院 郑州 中国 450000 2数学工程与先进计算国家重点实验室 郑州
2、中国 450000 332142 部队 保定 中国 071000 摘要 利用 K-means 算法对用户信息进行聚类时,存在隐私泄露的风险。差分隐私保护技术可提供严格的隐私保护,但目前大多数满足差分隐私的 K-means 算法在处理多维数据时,存在随机选择质心和噪声添加不均衡的问题,因而导致聚类结果不理想。为此,本文提出一种基于 Tsallis 熵的近似差分隐私 K-means 算法。针对质心选择的随机性问题,提出 Tsallis 熵对属性赋权的策略来优化对象间的欧氏距离,然后对比各对象到唯一随机初始质心的赋权欧式距离来确定其余初始质心,使算法在减少随机选择初始质心的同时,提高模型准确率;在此
3、基础上,针对噪声添加不均衡的问题,提出一种能够平衡信噪比的隐私预算分配策略,然后对迭代质心加入高斯扰动,使算法在不增加计算复杂度的情况下满足(,)差分隐私保护,同时提升扰动结果的准确性;最后在四个真实数据集上对算法进行有效性评价。实验结果表明,所提出的算法能够在保证用户隐私安全的同时实现高效用的聚类。关键词 近似差分隐私;高斯机制;Tsallis 熵;K-means 聚类;数据挖掘 中图法分类号 TP391 DOI 号 10.19363/J10-1380/tn.2023.07.08 An approximate differential privacy K-means algorithm ba
4、sed on Tsallis entropy YANG Shudan1,2,LI Nan1,2,ZHENG WenJuan3,DU Qiming1 1 Department of Cyberspace Security Academy,Strategic Support Force Information Engineering University,Zhengzhou 450000,China 2 State Key Laboratory of Mathematical Engineering and Advanced Computing,Zhengzhou 450000,China 3 P
5、eoples Liberation Army 32142 Unit,Baoding 071000,China Abstract When using the K-means algorithm to cluster user information,there is a risk of privacy leakage.Differential privacy protection technology can provide strict privacy protection.However,most of the current K-means algorithms that meet di
6、fferential privacy have problems of random selection of centroids and imbalanced noise addition when processing multi-dimensional data,which leads to unsatisfactory clustering results.To this end,this paper proposes an approximate differential privacy K-means algorithm based on Tsallis entropy.Aimin
7、g at the randomness problem of centroid selection,a strategy of attribute weighting by Tsallis entropy is proposed to optimize the Euclidean distance between objects,and then the weighted Euclidean distance between each object and the unique random initial centroid is compared to determine the remai
8、ning initial centroids.This allows the algorithm to reduce the random selection of the initial centroid while im-proving the accuracy of the model;on this basis,a privacy budget allocation strategy that can balance the signal-to-noise ratio is proposed for the problem of noise imbalance,and then add
9、 Gaussian perturbation to the iterative centroid,so that the algorithm satisfies(,)differential privacy protection without increasing the time complexity,and at the same time improves the accuracy of the perturbation results;finally,the effectiveness of the algorithm is evaluated on four real data s
10、ets.Experimental results show that the proposed algorithm can achieve efficient clustering while ensuring user privacy.Key words approximate differential privacy;Gaussian mechanism;Tsallis entropy;K-means clustering;data mining 1 引言 随着信息技术的快速发展,人类社会正处于万物互联的大数据时代,数据作为大数据时代的核心要素,已成为技术创新的基石、经济繁荣的催化剂1。为
11、了充分释放数据的价值,以 K-means 聚类分析2为代表的数据挖掘3算法得到了广泛的应用。然而这些算法在发现知识的同时,也在无时无刻地114 Journal of Cyber Security 信息安全学报,2023 年 7 月,第 8 卷,第 4 期 收集着人们的个人信息,如果在应用中不注重保护个人信息,则攻击者很容易通过重构攻击4-6、成员推理攻击等手段获取这些信息,进而造成个人隐私的泄露。因此,在聚类过程中获得高质量数据分析的同时,应该不断加强对个人隐私的保护,只有这样才能促进大数据应用健康发展。差分隐私7定义了一个与背景知识无关的量化分析模型,并提供严格的数学证明,具有强大的隐私保障
12、水平,已被广泛应用于数据挖掘领域8-11。已有文献提出满足差分隐私的 K-means 聚类算法:Blum等人12最早提出了基于差分隐私的K-means算法,并通过 SuLQ 平台13实现;Frank 等人14基于PINQ平台设计和实现了满足差分隐私的K-means聚类算法;Thanh 等人15通过直接关注数据点,提出估计误差的隐私感知 K-means 算法,以阻止对手推断未知数据点;Yu 等人16根据数据点的分布密度选择初始中心点,提出剔除离群值的差分隐私 K-means算法;胡等人17以 K-means+的结果作为输入值,通过交替的方式来确定初始质心,提出了基于Laplace 机制的 K-m
13、eans 差分隐私算法;Dwork18等人提出了指数递减隐私预算分配策略的差分隐私K-means 算法。然而上述方法大多要求在传统的 K-means 算法的聚类过程添加 Laplace 噪声来实现差分隐私保护,存在以下两方面局限:(1)传统的 K-means 算法由于忽略了数据对象各属性对聚类结果发挥的不同聚类作用,同时随机选择初始质心,导致质心的质量良莠不齐,进而造成聚类效果不稳定的情况时常发生。(2)聚类数据集大多是多属性的数据样本,采用Laplace 机制处理多变量隐私问题时,会产生过多的噪声19,同时随着迭代次数的不断增加,质心趋于稳定,等量的噪声会增加隐私预算的开销以及引起质心较大的
14、波动,进而影响聚类结果。为了解决上述问题,本文提出了一种基于Tsallis熵的 K-means 聚类近似差分隐私保护算法。针对问题 1,利用能度量系统有序化程度且能对不同的数据集均有较好的适应性的 Tsallis 熵20-22对样本属性赋权,并采用赋权欧氏距离作为相似性度量的依据,然后随机选取一个初始质心,计算其余数据样本到此质心的赋权欧氏距离以衡量其被选为初始质心的概率,最后采用轮盘法依次选出其余初始质心。针对问题 2,设计对迭代数越大的质心多分配隐私预算的策略,相对降低噪声量,提高信噪比。然后采用能更大程度地保留数据的可用性、更适合处理多维数据的高斯机制对迭代质心添加噪声,使算法满足(,)
15、差分隐私保护。2 背景知识 2.1 Tsallis 熵 信息熵是对系统有序化的一种度量,但对于常见的幂律厚尾分布族23却不能通过信息熵来刻画24,而以1()nqiip x为例的依赖于概率幂的熵度量可以做到。因此,Tsallis 熵为代表的泛化熵被提出。定义定义 1.Tsallis 熵。Tsallis 熵通过一个可调节的参数 q 将其应用范围拓展到所谓的非拓展系统中25,具体定义形式如下:1()()ln()nqqiqiiSXp xp x (1)其中1ln()(1)/(1)qqxxq,1,0qx是logq 函数26,1,.,nXxx是一个随机变量()ip x是取值为ix的概率,Rq是一个可调节的参
16、数,当1q 时,Tsallis熵()qSX退化为信息熵;当2q 时,Tsallis熵()qSX退化为基尼系数。2.2 近似差分隐私 2.2.1 近似差分隐私的理论基础近似差分隐私的理论基础 定义定义 2.差分隐私。设随机算法:nMXY。考虑任意两个只有一个条目不同的相邻数据集,nX XX,如果,对于所有相邻的,X X和所有的TY,满足:()()pr M XTe pr M XT (2)则M满足差分隐私(即满足纯差分隐私),其中其中M的选择是随机的,为隐私预算,与隐私保护水平呈负相关,当较小时,隐私保护能力较强,但此时噪声大,容易导致数据失真,反之亦然。在实际应用场景中,当对高维向量、矩阵等复杂数
17、据进行处理时,为保证数据的可用性,往往要求噪声不会过大,因此Dwork等人提出了近似差分隐私27。定 义定 义3.(,)差 分 隐 私。设 随 机 算 法:nMXY。满足:()()pr M XTe pr M XT (3)则M是(,)差分隐私(即满足近似差分隐私),其中为松弛因子,且01。当越小时,隐私性损失量越微弱,当=0时,M的隐私保护能力退化为公式(2)。定义定义 4.敏感度。设:RnnfX。f的2敏感杨舒丹 等:基于 Tsallis 熵的近似差分隐私 K-means 算法 115 性是:22,max()()X Xf Xf X (4)其中,X X是相邻数据集。2.2.2 近似差分隐私的实现
18、机制近似差分隐私的实现机制 高斯机制是实现近似差分隐私保护的主要方法,其通过向数据中添加符合高斯分布的随机变量达到隐私保护的目的。高斯分布2()N,的密度函数为:2221()()exp()22xp x (5)其中均值和方差分别为和2,该分布的可视化图像如图1所示:图 1 高斯分布 Figure 1 Gaussian distribution 定义定义 5.高斯机制。设:RnnfX。高斯机制定义为:1()()(,.,)kM Xf XYY (6)其中,iY是独立的2(0,)N高斯分布函数,而22222ln(1.25)/,可见,该噪声大小取决于查询函数的2敏感性、给定的隐私预算,以及松弛因子。在同样
19、的隐私保护预算分配下,髙斯机制添加的噪声要小于拉普拉斯机制27,因此更大程度地保留了数据的可用性,适于处理多维数据。在算法实现中,松驰因子的大小也会大大影响模型的准确率。2.2.3 近似差分隐私的性质近似差分隐私的性质 性质性质 1.序列组合性。设1(,.,)kMMM是一个算法序列,其中iM是(,)ii 差分隐私,那么M满足11(,)kkiiii差分隐私。即:序列组合性允许对数据集进行多次查询操作,最终总的隐私预算为各个查询操作所消耗的隐私预算总和。3 基于 Tsallis 熵的 K-means 聚类差分隐私算法设计 本文建立了一个兼具隐私保护性和高可用性的差分隐私K-means聚类模型。图2
20、是模型的概述,其中数据挖掘器不能直接访问原始数据库,但可以向差分隐私接口提交查询和相应的隐私预算,差分隐私接口将返回一个保持统计特征的不敏感数据。然后,数据挖掘者利用本文提出的基于Tsallis熵的K-means聚类近似差分隐私方案,根据查询结果构建差分隐私模型,并在不暴露原始数据集敏感信息的情况下发布该模型。图 2 满足差分隐私的数据挖掘框架概述 Figure 2 A system overview of differential privacy data mining 本文提出的基于Tsallis熵的K-means聚类近似差分隐私方案将围绕高质量的聚类结果和可靠的隐私保护两个方面展开。针对
21、K-means算法随机选择初始质心,导致初始质心质量不稳定,影响聚类的准确率这一问题,本文设计了基于Tsallis熵对属性赋权的初始质心选择法对初始质心进行优化。在此基础上,针对在聚类过程中,攻击者恶意查询某个子类中用户信息这一隐私泄露现象,本文依据迭代质心的特点设计隐私预算划分策略,从信噪比的角度出发,解决迭代数越大的质心其信噪比相对越小的问题,然后向迭代质心添加高斯噪声,以满足(,)差分隐私,从而实现对用户敏感信息的保护。文中假定所有的数据源可信,但在进行数据挖掘过程中存在第三方攻击者的前提下,设计了基于Tsallis熵的K-means聚类差分隐私算法,目的是实现数据的可用且不可见,为了方
22、便和形式化描述,将其命名为DPTK-means。DPTK-means算法的基本框架如图3所示:在图3中,当攻击者查询某个子类中用户信息时,反馈的查询结果不再是真实的用户聚类信息,而是经过特定的近似差分隐私机制操作后返回的随机扰动结果。本文采用高斯机制实现隐私保护,与不116 Journal of Cyber Security 信息安全学报,2023 年 7 月,第 8 卷,第 4 期 考虑隐私保护的情况相比,本文设计的K-means聚类模型是基于特定扰动的统计结果来构建。图 3 算法框架 Figure 3 The frame of algorithm 3.1 基于 Tsallis 熵的 K-m
23、eans 算法 传统K-means算法选择初始质心具有随机性,容易导致算法陷入局部最优,难以获得稳定而精确的聚类结果。已有文献利用信息熵对聚类样本各属性赋权以提高聚类精度28,但并未考虑信息熵对不同数据集的适应性问题。Tsallis熵具有度量系统有序化程度,能适应不同类型数据等优点,本文将其用于计算各属性权重,通过对样本属性值进行适当缩放,以获得较优的聚类结果。因此设计基于Tsallis熵的改进K-means算法,重点考虑数据分布问题,为了方便和形式化描述,将其命名为TK-means。在具体实现过程中,围绕初始质心的选择这一问题进行展开:首先采用Tsallis熵法计算各属性的权重,再根据所设计
24、初始质心算法得到优化后的k个初始质心,具体的算法框架如图3部分所示。3.1.1 确定属性权重确定属性权重 使用改进熵值法计算属性权重的目的是优化初始质心,从而提高聚类准确度。在统计学中,信息熵等指标的缺点在于没有一种指标总能在各种数据集上获得最好的效果,缺乏对数据集的适应性。本文采用Tsallis熵统一常用的度量指标,同时通过可调参数q来适应各种数据集,这种思想第一次在文献22中被提出,被用于决策树分类问题20-21。本文根据不同属性对聚类的作用不同,采用Tsallis熵法计算各属性的权重,以便为无序且不同规模的数据集聚类提供依据。采用Tsallis熵法确定属性权重后,本文将TK-means权
25、值算法总结为如下:Step1:构造数据属性值矩阵。1111nmmnxxXxx (7)其中,n为样本总数,m为样本维数,ijx为第1,.,jm维属性所对应的第1,.,in个数据样本的属性值。Step2:计算样本的属性值比重。1/nijijijipxx (8)Step3:计算第j维属性的Tsallis熵。,11lnlnnqq jijqijiSppn (9)其中,q jS为衡量属性不纯度的指标,因此对于给定的j,q jS越小,样本的属性值之间的差值越大,该属性的聚类作用越大,属性越重要,反之成立。当属性值都相等时:,max1q jqSS,该属性的聚类效果为零。Step4:计算第j维属性的权值。,11
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 Tsallis 近似 隐私 means 算法
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。