POI推荐中的多源数据融合和隐私保护方法_王利娥.pdf
《POI推荐中的多源数据融合和隐私保护方法_王利娥.pdf》由会员分享,可在线阅读,更多相关《POI推荐中的多源数据融合和隐私保护方法_王利娥.pdf(15页珍藏版)》请在咨信网上搜索。
1、第 41 卷 第 1 期2023 年 1 月 广西师范大学学报(自然科学版)Journal of Guangxi Normal University(Natural Science Edition)Vol.41 No.1Jan.2023DOI:10.16088/j.issn.1001-6600.2022021104http:王利娥,王艺汇,李先贤.POI 推荐中的多源数据融合和隐私保护方法J.广西师范大学学报(自然科学版),2023,41(1):87-101.WANG L E,WANG Y H,LI X X.A multi-source data fusion and privacy prot
2、ection method of POI recommendationJ.Journal of Guangxi NormalUniversity(Natural Science Edition),2023,41(1):87-101.?POI 推荐中的多源数据融合和隐私保护方法王利娥1,2,王艺汇1,李先贤1,2(1.广西师范大学 计算机科学与工程学院,广西 桂林 541004;2.广西多源信息挖掘与安全重点实验室(广西师范大学),广西 桂林 541004)摘 要:随着移动定位技术的发展,兴趣点(point-of-interest,POI)推荐技术已经成为推荐领域中的研究热点之一。受限于用户的签
3、到能力,POI 推荐中存在严重的数据稀疏问题,而融合多源数据的 POI 推荐又面临着多重隐私挑战。涉及多来源的数据具有多样性、多元性等隐私特征,隐私泄漏机理更为复杂多样,其隐私保护问题更具挑战性。为此,本文提出一种基于注意力机制和隐私保护的多源 POI 推荐 MultiAM&PP_POI,能够在保护隐私的前提下有效提高 POI 推荐的精度。为了实现数据的有效融合,本文采用 LDA 主题模型提取用户在不同领域中的潜在特征,并利用注意力机制来自适应地训练,学习不同领域的潜在特征对 POI 推荐结果的影响,同时利用多层感知器来实现不同领域潜在特征的迁移。针对多源 POI 推荐中的隐私问题,本文利用联
4、邦学习框架将原始数据保存在本地,各参与方只需交互加密后的潜在特征,并改进了注意力机制和多层感知器,使其可在密文状态下完成训练,以保护用户隐私的安全。最后通过实验验证,本文模型能够在保护用户隐私前提下,相比单源联邦模型和其他跨域模型,在推荐精度方面分别提升 3.05 和 4.42 个百分点。关键词:兴趣点推荐;多源融合;注意力机制;隐私保护;联邦学习中图分类号:TP391 文献标志码:A 文章编号:1001-6600(2023)01-0087-15近年来,基于位置的服务(location-based serviced,LBS)与移动网络迎来了技术快速发展的时代。LBS技术因其覆盖范围广、定位精度
5、高等特点得到广泛应用。而与此同时,人们的日常生活也越来越离不开一些社交网络的应用,随着基于互联网的社交应用发展,人们的社交圈也逐渐脱离了地理因素的限制。而融合位置信息的社交网络(location-based social network,LBSN)也随着这些技术的发展逐渐成为人们日常生活中的重要应用。LBSN 服务允许用户在签到服务平台上向自己信任或熟悉的好友分享自己感兴趣的POI,而向用户提供 LBSN 服务的平台也可以通过收集用户的历史签到数据来分析他们的签到偏好,为其生成可能感兴趣的 POI 推荐,以提升用户的平台体验满意度。例如国外 FourSquare、Gowalla、Yelp 等平
6、台,以及国内大众点评、微博等,都为用户提供 LBSN 服务。但是,用户的签到数据受到地理和时间因素的限制,仍旧存在严重的稀疏问题,这是因为相对于传统的商品推荐中的购买数据来说,用户的签到能力是非常有限的,很多用户的签到轨迹可能只局限于某个位置附近的范围。而且 POI 推荐的时效性更强,因为用户通常在不同的时间段倾向于签到的 POI 也是不同的。例如在中午时段,用户就更加倾向于签到餐厅相关的 POIs。LBSN 服务平台的另一大特点就是允许用户在签到某个 POI 后对它的服务产生评论,这些评论在平台上是公开的,会在很大程度上影响未签到过该 POI 的用户对该 POI 的判断。并且,用户的评论中往
7、往包含着个人的情感因素,相对于单纯的 POI 签到数据来说,更能够反映出用户对某个 POI 的收稿日期:2022-02-11 修回日期:2022-07-27基金项目:国家自然科学基金(U21A20474,62262003);广西科技计划项目(桂科 AA22067070,桂科 AD21220114);广西自然科学基金(2020GXNSFAA297075);“八桂学者”工程专项;广西大数据智能与应用人才小高地项目;广西应用数学中心(广西师范大学)项目;广西区域多源信息集成与智能处理协同创新中心项目;广西多源信息挖掘与安全重点实验室系统性研究课题基金(19-A-02-02)通信作者:李先贤(1969
8、),男,广西桂林人,广西师范大学教授,博导。E-mail:广西师范大学学报(自然科学版),2023,41(1)看法。综上所述,针对 POI 推荐领域中的数据稀疏和冷启动问题,现有工作通常通过融合辅助数据的方法来丰富 POI 推荐信息,常用数据包括位置、时间以及用户的评论文本等1-3。但这些数据是基于 POI 的相关信息,仍旧会受到用户签到能力的影响。有研究者指出,可以通过融合其他领域的辅助信息来提高 POI推荐领域的精度,其中应用最多的就是用户的社交网络数据4-5,这是因为用户在日常生活中的签到偏好很容易受朋友的影响。很多研究表明,基于信任关系的推荐可以在一定程度上缓解数据稀疏的问题。但基于单
9、维度的数据融合,存在信息不全面,进而使得用户偏好存在偏斜的问题。为此,本文提出一种融合多源数据的 POI 推荐方法,通过多源辅助信息的融合,形成一个更为全面和完整的 POI 推荐模型。为方便描述,本文以融合用户的社交信息和电子商务领域的数据为例来进行说明。笔者认为除了社交信息之外,用户在电子商务领域的购买偏好也可以在一定程度上反映用户的签到偏好,比如一个人如果经常在电商平台上购买化妆品类的商品,那么当他到达一个商场时,他就更有可能签到与化妆品相关的商品服务。对于多源数据的融合,目前还存在 2 个方面的挑战:1)数据融合过程中的隐私问题。由于不同领域数据的自治性和隐私控制策略不同,数据中包含用户
10、个人信息甚至商业机密等隐私信息。而多源数据的融合基础就是数据共享与特征提取,因此如何在保证隐私安全的前提下,实现有效的数据融合已成为多源推荐中的关键瓶颈问题。2)不同领域的辅助数据对于 POI 数据的影响程度不同。虽然不同领域之间的数据都存在着某种关联,但关联程度却不相同,现有跨领域的 POI 推荐大多是通过指定线性的权重来控制不同因素对 POI 推荐结果的影响6,但指定的权重往往不能满足用户多样化的需求或不符合实际应用场景。因此,本文同时考虑多源数据之间的关联度和用户的隐私安全问题,在服务器端利用一个改进后的注意力机制和多层感知器(multi-layer perceptron,MLP)来实现
11、加密后的潜在特征分布7。一方面,在传输这些潜在特征分布时,本文采用同态加密方案8对原始特征分布加密后再进行传输,实现保护用户的隐私信息;另一方面,本文采用注意力机制来实现服务器的自适应训练,自动学习不同来源的辅助数据对 POI领域的影响程度,提高训练结果的准确性。本文的主要工作可以归纳如下:1)提出一种多源跨域 POI 推荐方法,通过融合多源辅助数据来缓解 POI 领域的数据稀疏和冷启动问题,采用深度学习技术来进行知识迁移以实现多源数据的融合,进而改善推荐质量。目前,已有工作提出了融合评论文本或者社交网络的 POI 推荐,但评论文本本身就是基于 POI 领域,仍然存在稀疏性和冷启动问题,而单一
12、的融合社交网络数据则是基于重叠用户的前提,存在一定的偏斜问题。本文融合多源数据的 POI 推荐,能够获得更为完整和全面的辅助信息,有效缓解数据稀疏和冷启动情况下推荐精确度不高的问题。2)为了保护多源数据融合过程中的隐私安全,本文集成联邦学习框架提出适用于多源跨域 POI 推荐的隐私保护方法,将不同领域的用户特征数据存放在本地,只上传提取的特征以实现数据的安全融合,同时利用同态加密方法在数据传输过程中保护用户的隐私,并设计能够适应密文数据训练的注意力机制和服务器端的神经网络进行模型训练,能有效保证整个模型训练过程中的隐私安全。3)考虑到不同辅助领域数据对 POI 推荐结果的影响程度不同,本文利用
13、注意力机制使得服务器端能够进行自适应的训练。现有工作主要通过指定一个线性的权重来控制不同因素的影响,但这往往不具有普适性。本文采用注意力机制自适应地训练多个辅助领域的影响权重,能够提高训练结果的质量。1 相关工作1.1 POI 推荐技术研究现状针对 POI 推荐中存在的数据稀疏性和冷启动问题,最自然的方法就是融入其他维度的信息,现有工作主要考虑 POI 在时间和地理位置上的 2 个相关维度。Pan 等9考虑用户在一定地理区域内的潜在隐性关系,该框架结合了用户偏好和个性化的地理社会影响;Stefancova 等10则主要考虑季节性和长期兴趣的88http:推荐,使得模型针对某个特殊的地理位置可以
14、在一定范围内显著提高推荐结果的质量;叶继华等11则考虑签到数据的时间影响和空间影响,通过序列的表示来融合数据的时间和空间维度信息,建立时空上下文信息的 POI 推荐模型(STCPR),为 POI 推荐提供了更精准的个性化偏好;陈炯等12则综合分析兴趣点的地理位置、分类偏好、流行度、社交与情感倾向等多维度影响因素,提出融合多因素的兴趣点协同推荐模型(GCSR)。其次,有研究者指出可以通过用户的评论文本融合来缓解 POI 签到数据的稀疏问题,因为评论文本通常可以反应用户真实的情感偏好。Da Silva 等13将用户评论的文本信息引入泊松矩阵分解框架中,同时考虑用户的信任关系;Chang 等14指出
15、传统的连续 POI 建模没有考虑 POI 之间的连续关系,单纯 POI之间的物理距离是不够的,并提出可以利用上下文信息来提高连续的 POI 签到推荐的精确度;也有研究者关注通过上下文信息的融合来缓解数据稀疏问题,如陈劲松等15提出一种多维上下文感知的图嵌入模型 MCAGE,利用主题模型获取用户和项目间的潜在语义特征,并重新定义了一系列图的节点及关联规则,设计更有效的用户偏好公式,以此提升刻画移动用户偏好的精准度。1.2 数据融合的 POI 推荐技术研究为了跳出 POI 数据的局限,有研究者指出可以基于其他领域的数据来丰富 POI 领域的数据。已有工作主要考虑用户的社交网络数据,这是因为 LBS
16、N 融合了社交网络数据与 POI 签到数据,利用社交网络中人与人之间的关系来为 POI 推荐提供辅助分析数据。夏英等6提出一种融合社交关系和局部地理因素的 POI 推荐算法。一方面,基于用户的社交关系和共同签到数据来度量用户的相似性,采用协同过滤方法构建社交影响模型;另一方面,基于局部范围内 POIs 间的签到相关性分析,建立局部地理因素影响模型;最后融合社交关系和局部地理因素以提高 POI 推荐的质量。刘真等16则认为 LBSN 中的签到、社交等信息具有丰富的上下文信息,可以基于其空间特性深入挖掘用户和 POI 之间的非线性交互,设计了一种谱嵌入增强的 POI 推荐算法 PSC-SMLP。任
17、星怡等17则充分考虑兴趣点的地理、文本、社会、分类与流行度等多维度信息,提出一种上下文感知的概率矩阵分解兴趣点推荐算法,将兴趣、地理、社会、分类的相关分数进行有效融合,从而生成推荐列表,给用户推荐其感兴趣的 POI 位置点。Zhang 等18提出一个可以同时发现用户签到行为的社会、序列、时间和空间模式的统一概率生成模型。Zeng 等19在建立用户-标签矩阵模拟用户多标签影响的同时,引入社会正则化项来体现社会关系对 POI 推荐的影响。此外,也有工作考虑到跨城市之间的关联推荐和其他领域数据的辅助关联,以此提高 POI 推荐的准确度。Li等20设计一个基于城市共同特征的迁移学习模型,将用户在其他城
18、市的兴趣偏好迁移过来用于目标城市的 POI 推荐分析。Ding 等21分析用户在家乡和旅游城市之间存在的签到特征关系,以及当地人与外地旅游用户签到特征的差异,提出一个基于用户签到特征迁移的 POI 推荐框架。Yin 等22则基于豆瓣网站数据分析用户的潜在偏好,融合 POI 数据生成一个新的概率生成模型。Wen 等23则首先采用 Word2Vec 模型对用户数据进行聚类,然后基于可加性马尔可夫链建模用户在聚类层次上的迁移行为。1.3 跨领域 POI 推荐的隐私保护技术研究郭旦怀等24指出传统的 POI 推荐通常将数据集中存储在一个服务器中,容易受到攻击,存在严重的安全隐患。现有的隐私保护方法主要
19、采用泛化25、差分隐私26、加密27等手段。张青云等28针对传统的 POI 推荐中的用户隐私信息容易被泄露的问题,提出采用差分隐私保护机制来实现用户信息在 POI 推荐过程中的隐私保护,防止被恶意攻击;沈鑫娣等29则提出一种基于局部敏感哈希(LSH)的隐私保护POI 推荐算法,通过 LSH 和 Paillier 同态加密技术在计算过程中保护数据隐私不被泄露,实现多个社交平台数据的安全融合,以提供更好的 POI 推荐服务。但这些方法并不适用于跨领域的 POI 推荐中,因为跨领域的 POI 推荐环境具有开放式特征,而且融合了多个不同领域的辅助信息,相对于单一的 POI 推荐面临着更为严重的隐私挑战
20、。针对分布式环境下 POI 推荐中的隐私问题,Chen 等30设计一种分布式的训练方法,将数据保存在用户本地,并采用随机游走技术对在不同客户端的用户数据进行分析,能够一定程度上保护用户的隐私安全,但该方法并没有考虑数据传输过程中的隐私风险;彭佳31则提出一个基于社交网络的去中心化矩阵分解模型,并将其应用到 POI 推荐领域中,针对梯度泄露的隐私风险,提出利用同98广西师范大学学报(自然科学版),2023,41(1)态加密算法对其加密后再进行传输,但该方法并没有考虑多源辅助数据的情况,以及数据关联带来的隐私风险。2 问题描述与预备知识2.1 问题描述数据稀疏问题是指给定一个目标用户ui,如果没有
21、足够的历史数据,就无法进行有效推荐。更为极端的是,如果该平台没有ui的历史数据,那么他就是一个冷启动用户,也称为冷启动问题。但当他多次使用平台服务时,该平台就可以基于收集的用户ui历史数据进行分析,建模其签到偏好并得到推荐列表,但由于数据的不完备性,推荐结果存在多样性缺乏等问题。针对 POI 推荐中的数据稀疏和冷启动问题,本文提出一个融合多源数据的 POI 跨领域推荐模型,利用多个辅助领域数据对缺失数据进行填补,以提高推荐结果的质量。同时,本文考虑数据融合过程中数据的隐私安全问题,集成联邦学习框架提出面向多源 POI 推荐的隐私保护方法,以保证隐私数据的安全。为了方便描述,下文中的辅助数据选取
22、常用的社交网络和电子商务数据进行多源数据融合。由于本文集成了联邦学习框架,用户数据存储在本地不上传,只上传特征数据以进行融合,因此,本文设计的隐私保护机制主要是针对特征数据在上传过程中的隐私安全。在联邦学习框架下,利用同态加密方案7对需要交互的用户隐私数据进行加密。服务器端接收到加密数据后,引用王启正7的方法对注意力机制和 MLP 神经网络进行改进,从而使服务器端可以在不解密的情况下训练注意力机制和 MLP 方法,减少同态加密模型的运行时间。2.2 预备知识2.2.1 相关定义定义 1 商业圈。假设某个用户ui当前所在的 POI 为 p,设定一个半径阈值 r,圆心是当前 POI 所在位置的坐标
23、(x,y),计算得到一个圆的面积范围 S=r2。为了便于描述,在下文中,将用户当前所在 POI 附近范围 S 称为“商业圈”。定义 2 兴趣点。兴趣点是指用户访问地点的唯一标识,例如咖啡馆、机场等。本文主要通过分析用户签到过的兴趣点的标签文本,获得用户的签到偏好,同时考虑兴趣点的时间和位置因素(经纬度坐标)。zw图 1 LDA 模型框架 Fig.1 LDA model framework 2.2.2 LDA 模型LDA 模型是一种自然语言处理模型,主要用来生成一篇文档中的主题分布,它是一个词袋模型,不考虑词语在文章中出现的顺序,大体框架如图 1 所示。2.2.3 同态加密同态加密是目前应用最广
24、泛的隐私保护技术之一,它能够在不解密的情况下,支持在密文数据上的运算,因此可以在无信息损失的情况下实现隐私信息的保护。为了方便理解,下面给出其形式化的定义。具有同态性质的加密函数是指 2 个明文 m1、m2满足加密函数D(E(m1)E(m2)=m1m2,(1)式中:E 表示加密算法;D 为相应的解密算法;m 表示明文;、分别对应密文和明文域上的运算。当代表加法时,称该加密为加同态加密;当代表乘法时,称该加密为乘同态加密。如果同时满足加法同态和乘法同态的算法则称为完全同态加密算法。在本文中,由于需要将客户端训练得到的特征加密后进行神经网络的训练,因此需要同时支持加法和乘法同态操作。在训练密态数据
25、时,引用王启正7的方法来改进激活函数,通过将传统神经网络的激励函数改进成多个连续的线性函数组成的分段函数,使得各个节点的值都能够映射到(0,1)内,并且通过控制线性函数中的斜率和偏移量来使得节点只对中间范围的值变化反应明显。该算法支持加法和乘法同态的概率加密算法,即使同一09http:个明文,不同次加密得到的密文也是不相同的。3 基于注意力机制的多源 POI 隐私保护推荐方法为了改善 POI 推荐的准确性和安全性,本文提出一个基于注意力机制的多源 POI 隐私保护推荐方法(以下简称 MultiAM&PP_POI)。相比单源 POI 推荐,多源推荐能够更好地缓解数据稀疏问题,同时也考虑了多源数据
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- POI 推荐 中的 数据 融合 隐私 保护 方法 王利娥
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。