融合空间和文本信息的兴趣点类别表征模型.pdf
《融合空间和文本信息的兴趣点类别表征模型.pdf》由会员分享,可在线阅读,更多相关《融合空间和文本信息的兴趣点类别表征模型.pdf(6页珍藏版)》请在咨信网上搜索。
1、2023 08 10计算机应用,Journal of Computer Applications2023,43(8):2456-2461ISSN 10019081CODEN JYIIDUhttp:/融合空间和文本信息的兴趣点类别表征模型徐则林1,2,杨敏2*,陈勐1,2(1.自然资源部城市国土资源监测与仿真重点实验室,广东 深圳 518034;2.山东大学 软件学院,济南 250101)(通信作者电子邮箱)摘要:准确表征兴趣点(POI)类别(如大学、餐厅等)是理解城市空间、辅助城市计算的关键。现有的POI类别表征模型通常只挖掘用户在POI之间的移动行为并学习序列特征,而忽视了POI数据的空间特
2、征和文本语义特征。为了解决上述问题,提出一种融合空间和文本信息的POI类别表征学习模型Cat2Vec。首先,利用POI的空间共现关系构建POI类别共现点互信息(PMI)矩阵;然后,基于预训练的文本表征模型学习POI的文本语义特征;最后,引入新的映射矩阵,并基于矩阵分解技术将PMI矩阵分解为POI类别表征矩阵、文本语义特征矩阵以及映射矩阵的内积。在两个真实世界的数据集Yelp和高德上进行的POI语义重叠度评测中,相较于基准模型中表现最好的Doc2Vec模型,所提模型的性能分别平均提高了5.53%和8.17%。实验结果表明所提模型能更有效地嵌入POI语义。关键词:兴趣点类别;表征学习;特征融合;兴
3、趣点语义;矩阵分解中图分类号:TP399 文献标志码:APoint-of-interest category representation model with spatial and textual informationXU Zelin1,2,YANG Min2*,CHEN Meng1,2(1.Key Laboratory of Urban Land Resources Monitoring and Simulation,Ministry of Natural Resources,Shenzhen Guangdong 518034,China;2.School of Software,Sh
4、andong University,Jinan Shandong 250101,China)Abstract:Representing Point-Of-Interest(POI)categories(e.g.,universities,restaurants)accurately is the key to understand urban space and assist urban computing.Existing models for POI category representation usually only mine users mobility behaviors amo
5、ng POIs and learn sequential features,while ignoring spatial and textual semantic features of POI data.In order to solve the above problems,a POI category representation learning model incorporating spatial and textual information Cat2Vec was proposed.Firstly,a POI category co-occurrence Point-wise
6、Mutual Information(PMI)matrix was constructed by using the spatial co-occurrence relationships of POIs.Then,the text semantic features of POIs were learnt by a pre-trained text representation model.Finally,a new mapping matrix was introduced,and based on the matrix factorization technology,the PMI m
7、atrix was decomposed into an inner product of a POI category representation matrix,a text semantic feature matrix and a mapping matrix.In the evaluation of semantic overlapping of POIs on two real-world datasets Yelp and AMap,compared to Doc2Vec,the best model among baselines,the proposed model has
8、the performance improved by 5.53%and 8.17%averagely and respectively.Experimental results show that the proposed model can embed the semantics of POIs more effectively.Key words:Point-Of-Interest(POI)category;representation learning;feature fusion;POI semantics;matrix factorization0 引言 城市是经济活动和创新的中心
9、,作为一个复杂的空间与人文系统,存在多种类型的兴趣点(Point-Of-Interest,POI)。兴趣点通常包括3个部分:兴趣点唯一编号、兴趣点类别和地理位置标识符。兴趣点类别可以理解为兴趣点语义的概括。例如,一个兴趣点的类别是酒吧,那么意味着它具有喝酒、年轻人等隐含语义。理解兴趣点语义,对便利居民生活、高效利用土地资源等具有重要意义1-2。同时,兴趣点类别对于城市计算中的一系列其他关键研究问题亦有着重要支撑作用,例如人群移动轨迹预测3-4、面向用户的位置推荐5-6和识别用户生活模式7等。近年来,基于表征学习的模型在兴趣点语义理解研究中愈发流行。现有模型通常挖掘用户签到数据并建模用户在兴趣点
10、之间的序列转移模式来学习兴趣点的表征向量。例如,陈勐等8提出了一种概率生成模型,挖掘用户的兴趣点转移关系来学习向量表征;Yang等9将用户的签到兴趣点的类别和签到时间拼接为一个特征词,并采用连续词袋模型(Continuous Bag-Of-Words,CBOW)从特征词序列中学习向量表征;Chen等10同时挖掘用户签到的类别序列以及类别的层次结构,构建多种类型的上下文来学习类别的向量表征。相较于用户签到数据,兴趣点数据具有覆盖范围广、获取文章编号:1001-9081(2023)08-2456-06DOI:10.11772/j.issn.1001-9081.2022071037收稿日期:2022
11、0715;修回日期:20221118;录用日期:20221121。基金项目:自然资源部城市国土资源监测与仿真重点实验室开放基金资助课题(KF202106079)。作者简介:徐则林(2000),男,江苏海安人,硕士研究生,主要研究方向:时空数据挖掘;杨敏(1989),女,山东德州人,博士,主要研究方向:大数据管理、数据挖掘;陈勐(1990),男,山东滕州人,副教授,博士,CCF会员,主要研究方向:数据挖掘、城市计算。第 8 期徐则林等:融合空间和文本信息的兴趣点类别表征模型简单等特点。一些工作建模兴趣点的空间信息,挖掘兴趣点的空间特征来学习类别向量。例如,Yan等11提出一种基于兴趣点邻接关系对
12、空间共现信息的模型,即增强空间上下文来学习类别向量;Zhai等12利用最近邻方法构建基于兴趣点的空间上下文,并基于 Skip-Gram 模型学习类别表征向量。Huang等13将随机游走模型应用到兴趣点空间网络中捕捉空间共现模式,学习兴趣点语义向量;进一步地,一些模型同时建模兴趣点序列模式和空间信息来学习兴趣点表征向量14-15。但是,这些模型主要学习兴趣点表征向量解决兴趣点推荐的问题,而不是学习类别的表征向量。一方面,用户签到数据往往获取复杂且易侵犯用户隐私;另一方面,兴趣点自身包含丰富的空间和文本信息,现有的兴趣点语义表征学习对这些信息的挖掘存在局限性。因此,本文主要关注如何深度挖掘兴趣点的
13、空间和文本信息学习兴趣点类别的低维表征并理解空间和文本信息的隐含语义。根据地理学第一定律,“所有事物都与其他事物相关,但是近处的事物比远处的事物更相关”;因此,一个兴趣点受到兴趣点邻近兴趣点的影响更大,具有空间相关性的兴趣点具有语义相似性。同时,兴趣点数据也包含了大量的文本信息,例如兴趣点的名称、用户关于兴趣点的评论等。这些文本信息描述了兴趣点的特征,可以帮助人们更好地理解兴趣点的语义。基于以上分析,本文提出了一种新的融合空间和文本信息的兴趣点类别表征学习模型Cat2Vec,它既能捕捉兴趣点之间的空间关联,又能挖掘兴趣点自身的文本信息。具体来说,Cat2Vec模型首先利用兴趣点的空间共现关系,
14、构建兴趣点类别共现点互信息(Point-wise Mutual Information,PMI)矩阵M;然后基于预训练的文本表征模型学习兴趣点的文本语义特征S;最后引入新的映射矩阵Y,基于矩阵分解技术将矩阵M分解为兴趣点类别表征矩阵T、文本语义特征矩阵S以及映射矩阵Y的内积。这样,Cat2Vec模型在兴趣点类别表征时,联合挖掘了兴趣点的空间信息和文本信息。学习到的兴趣点类别表征向量可以用在多种任务中,例如兴趣点语义查询、城市功能区域分类等。本文综合考虑兴趣点的空间和文本信息,提出了一种多模态融合的兴趣点类别表征学习模型Cat2Vec。模型可以将兴趣点类别表征为预训练的特征向量,这为兴趣点语义查
15、询、城市功能区域分类等应用提供了有力的支持。在两个真实世界的兴趣点数据集上进行了实验研究。在语义重叠度评测任务中,与表现最好的文档向量模型Doc2Vec16相比,准确度在Yelp数据集和高德数据集上分别平均提高了 5.53%和 8.17%。实验结果表明,本文提出的Cat2Vec模型能嵌入兴趣点语义,在语义重叠度评测任务上的表现优于基准模型。1 问题定义与数据集 1.1问题定义定义1 兴趣点。兴趣点v是城市空间中特定的位置点,由三个部分组成:兴趣点唯一编号、地理位置坐标(例如经纬度坐标)以及兴趣点类别集合T=t1,t2,tN,N代表兴趣点类别数。定义2 兴趣点类别。兴趣点类别t(例如加油站、酒吧
16、)表示一个兴趣点提供的活动主题。一个城市或者一个区域可以被表示为一系列兴趣点类别的集合,其中每个类别ti包含了分布在城市空间中的多个兴趣点Vi=v1,v2,vNvti,Nvti表示具有类别ti的兴趣点总数。定义 3 兴趣点文本。兴趣点文本包括从兴趣点的标签、评论和名称等中提取的词汇,这里用 w1,w2,来表示兴趣点的文本内容。兴趣点类别ti的单词集合包括所有具有类别ti的兴趣点的文本,表示为Wi=w1,w2,wNwti,其中Nwti是类别ti的文本的单词总数。定义4 兴趣点类别表征。给定兴趣点类别集合T以及与各个类别ti相关联的兴趣点集合Vi和单词集合Wi,兴趣点类别表征为每一个类别ti学习一
17、个嵌入兴趣点语义的向量表征Vti RD,其中D表示向量的维度。1.2数据集Yelp数据集(https:/ 206种兴趣点类别、31 631个兴趣点、7 875 488条用户评论以及465 713条兴趣点介绍。高德数据集17:高德地图提供了兴趣点信息的获取接口,用于爬取兴趣点的唯一编号、中文地址、所属城市、名称、经纬度和对应的兴趣点类别。本文选择北京市作为研究区域,构建高德数据集。该数据包括838种兴趣点类别和1 259 625个兴趣点。针对这两个数据集,首先统计每种兴趣点类别对应的兴趣点的数量,如图1所示。这两个数据集的兴趣点类别排名-兴趣点数量分布都呈现长尾分布的特征;接着绘制了对数图,都呈
18、现出线性趋势。使用线性回归拟合该数据,得到R平方值分别为0.843 4和0.836 0,这表明线性模型与数据拟合较好。这些统计结果表明兴趣点类别排名-兴趣点数量遵循幂律分布,其中一些兴趣点类别在数据中占据主导地位。图1兴趣点类别-出现频次分布Fig.1Distribution of POI category-frequency进一步地,本文分析兴趣点文本中的词汇信息。在Yelp数据集中,选取兴趣点介绍和用户评论作为文本信息;在高德数据中,选取兴趣点的名称作为文本信息。以 Yelp 数据为例,图 2 展示了 4 种兴趣点类别(Ice Cream&Frozen Yogurt、Shaved Ice、
19、Colleges&Universities 和 Hair Salons)的词汇分布。显然,语义不同的兴趣点类别(例如Ice Cream&Frozen Yogurt2457第 43 卷计算机应用和Colleges&Universities)的词汇分布有较大差距;语义相近的兴趣点类别(例如Ice Cream&Frozen Yogurt和Shaved Ice)具有相似的词汇分布。这些词汇在一定程度上能够表达兴趣点类别的语义。2 兴趣点类别表征模型 模型中用到的符号如表1所示。2.1Cat2Vec模型图3展示了Cat2Vec模型的框架。Cat2Vec模型联合挖掘兴趣点的空间信息和文本信息,并将两种信息
20、融合在一个统一的模型中。空间信息挖掘 具有经纬度坐标的兴趣点,分布在城市空间中。根据地理学第一定律,空间邻近的兴趣点的关联更加紧密。因此,本文首先挖掘兴趣点的空间上下文,即给定目标兴趣点,选择目标兴趣点的近邻作为空间上下文,并假设具有相似空间上下文的兴趣点的语义是相似的,也就是具有相似空间上下文的兴趣点的类别表征向量在嵌入空间中是相近的。文本信息挖掘 兴趣点通常具有文本信息,例如用户在Yelp上关于兴趣点的评论、高德地图中兴趣点的名称等。这些文本信息可以很好地反映兴趣点的语义。本文利用这些文本信息学习预训练的兴趣点文本语义特征,表示为S。最后,联合挖掘兴趣点的空间信息和文本信息,在隐含空间中建
21、立兴趣点类别表征矩阵T和兴趣点类别的文本语义特征矩阵S的关系。具体地,本文构建了兴趣点类别共现PMI矩阵,并基于矩阵分解将PMI矩阵M分解为兴趣点类别表征矩阵T、兴趣点类别的语义特征矩阵S和映射矩阵Y的积。学习得到的兴趣点类别表征向量可以用在多种下游任务中,例如兴趣点推荐、地图检索等。2.2空间信息挖掘近年来,词向量模型Word2Vec18常用来学习单词的表征向量,假设具有相似上下文的单词在隐含表征空间中具有相似的语义。鉴于兴趣点类别的排名-兴趣点数量遵循幂律分布,这和单词分布类似,本文提出基于Word2Vec模型的思想学习兴趣点类别的表征向量。不同于序列化的自然语言,兴趣点分布在二维地理空间
22、中。因此,如何构建兴趣点的上下文成为亟待解决的问题。考虑到兴趣点的空间分布特性,本文从空间近邻的角度构建兴趣点的上下文。具体来说,给定一个目标兴趣点,首先寻找它Ks个近邻的兴趣点作为空间上下文;进一步地,由于每个兴趣点可能具有多个兴趣点类别,采用笛卡儿积分别获得每个目标兴趣点类别和其对应的上下文兴趣点类别的训练对;然后,假设目标兴趣点有Nt个类别,第k个上下文兴趣点有Nk个类别,那么总计获得Ntk=1KsNk个训练对;最后,遍历每一个目标兴趣点,将获得的训练对加入到训练数据集D中。图2兴趣点类别的词汇分布Fig.2Word distribution of POI category表1符号和描述
23、Tab.1Symbols and descriptions符号v,t,cNDKVtVcM RN NT RN DC RN DS RN KY RD K描述兴趣点、目标兴趣点类别、上下文兴趣点类别兴趣点类别数量向量空间的维度文本语义特征向量的维度目标兴趣点类别的向量表征上下文兴趣点类别的向量表征兴趣点类别的共现PMI矩阵目标兴趣点类别的表征矩阵上下文兴趣点类别的表征矩阵兴趣点类别的文本语义特征矩阵映射矩阵图3Cat2Vec模型框架Fig.3Framework of Cat2Vec model2458第 8 期徐则林等:融合空间和文本信息的兴趣点类别表征模型基于目标兴趣点类别和上下文类别的训练对,采用
24、Skip-Gram模型来学习兴趣点类别的表征向量。由于Skip-Gram模型的目标函数已被证明等价于分解单词共现PMI矩阵19,本文提出挖掘兴趣点类别的共现信息来学习类别表征向量。具体地,给定目标兴趣点类别t和上下文类别c,首先基于类别的共现频率计算PMI值:PMI(D)t,c=lb#(t,c)|D#(t)#(c)(1)其中:#(t,c)表示兴趣点类别t和c构成的训练对在数据集D中的出现次数;#(t)表示类别t在D中出现的次数;#(c)表示类别c在D中出现的次数;|D|表示训练对的总数。PMI(D)t,c通过计算联合概率和边际概率比值的对数,衡量目标兴趣点类别t和上下文兴趣点类别c之间的相似度
25、。进一步地,建立目标兴趣点类别t和上下文类别c的PMI值与兴趣点类别表征向量的联系:VtVc PMI(D)t,c(2)其中:Vt表示目标兴趣点类别t的向量;Vc表示上下文类别c的向量。最后,为了学习兴趣点类别的表征向量,将目标函数定义为:minT,CM-TCT2F+(T2F+C2F)(3)其中:M RN N表示正的兴趣点类别共现 PMI 矩阵,即M(t,c)=max(0,)PMI(D)t,c;T RN D表示目标兴趣点类别的表征矩阵;C RN D表示上下文兴趣点类别的表征矩阵;D表示表征向量的维度。通过对所有共现对最小化均方误差的方法将M分解为T和C的内积,F表示 Frobenius 范数。(
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 融合 空间 和文 信息 兴趣 类别 表征 模型
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。