基于Levenshtein-Jaro距离的POI判重处理与实现.pdf
《基于Levenshtein-Jaro距离的POI判重处理与实现.pdf》由会员分享,可在线阅读,更多相关《基于Levenshtein-Jaro距离的POI判重处理与实现.pdf(6页珍藏版)》请在咨信网上搜索。
1、浙江测绘 2023 年第 3 期1 引言POI作为天地图的重要组成部分袁 在促进地理信息资源共享和高效利用袁改进测绘地理信息成果的服务方式袁更好地满足城市信息化建设等方面发挥着重要作用1遥当前袁根据叶浙江省地理信息公共服务平台渊天地图冤POI数据更新技术要求渊2022冤曳2和叶浙江省天地图省尧 市渊县冤 级数据融合技术方案渊2020冤曳3渊以下统称野融合方案冶冤相关要求袁POI在经过融合判重尧分词处理尧唯一码编制尧分级显示等处理后上传至浙江政务地理信息资源采集共享平台遥 目前袁POI融合判重处理主要是野软件处理冶和野目视判别冶相结合的方式遥 其中袁野软件处理冶主要是根据现有工具进行遥但在使用中
2、发现袁 现有工具仅能对名称存在包含关系的POI进行识别渊如野宁波市镇海区冶和野镇海区冶可以进行识别袁野宁波市镇海区冶和野宁波镇海冶无法识别冤袁 且忽略了POI的类别属性和POI合理重复存在的情况渊如公交站尧停车场等冤袁使得判定的结果存在一定的野漏判冶和野误判冶袁因此此项工作主要还是依靠人工在二维地图上 野目视判别冶遥 而野目视判别冶不仅工作量极大袁同样容易造成POI漏判遥 因此袁 为提高POI融合判重处理效率袁 本文将结合融合方案中的相关要求袁 在综合考虑POI判重处理效率和程序实现难易程度的基础上袁分析归纳Levenshtein-Jaro距离的POI判重处理原理袁并基于Python开发出操作
3、软件袁实现POI融合判重遥2 材料与方法2.1 数据来源在本文中袁POI数据来源于2021年镇海区地理信息公共服务平台袁 包括省节点POI和商业POI遥 其中袁省节点POI数据由省自然资源相关部门下发袁商业POI数据由宁波市自然资源相关部门下发袁两者坐标系均为2000国家大地坐标系遥2.2 POI 融合判重由融合技术方案可知袁POI融合判重是以省节点POI为本底袁 商业POI为更新源进行融合袁并将省节点尧商业POI中重复的POI仅保留现势性高的POI袁现势性低的POI予以舍弃遥 同时袁后续POI分级处理等内容均在此基础上进行袁因此袁POI融合判重是POI更新融合的关键遥根据汉典中对于野重复冶的
4、定义院同样的东西再次出现遥 引申至本文中袁结合POI的类别属性和空间特征袁野重复POI冶则可以定义为院一定空间范围内同样的POI再次出现遥 即袁近距离内具有相同的名称和类别属性的POI可以称之为野重复POI冶遥 图1为野疑似重复POI冶示例遥基于 Levenshtein-Jaro 距离的 POI 判重处理与实现梅杨袁朱若愚袁范攀峰渊宁波市镇海规划勘测设计研究院袁宁波315202冤摘要院 为解决天地图 窑 POI 融合过程中 POI 融合判重问题袁本文依据天地图数据融合技术方案要求袁给出了野重复 POI冶定义遥 同时袁基于 Levenshtein-Jaro 距离袁详细阐述了 POI 模糊判重实现
5、流程,并基于 Python 开发相关计算软件遥 最后袁以镇海区骆驼街道 2021 年 POI 数据作为示例数据进行分析和优化袁同步对比现有工具检测结果袁证明了处理流程的有效性和处理结果的可靠性遥关键字院 POI曰融合判重曰Levenshtein-Jaro 距离技术交流ZHEJIANGCEHUI23窑窑浙江测绘 2023 年第 3 期在图1中袁图a的野吾悦广场冶因类别不同袁因此判定不属于野重复POI冶遥 图b名称尧类别虽一致袁 但分别位于两条不同的街道 渊直线距离348米冤袁也不属于野重复POI冶遥 图c名称尧类别一致袁且空间邻近渊直线距离10米冤袁属于野重复POI冶遥根据野重复POI冶定义袁判
6、定两个POI属于野重复POI冶的依据是名称尧类别属性和空间距离遥 其中袁对于类别属性袁待判定的POI属性必须满足一致曰对于空间距离袁可根据生活中野重复POI冶渊如ATM尧品牌连锁店等冤之间的空间关系进行估算遥 而相较于类别属性和空间距离袁判定两个名称是否相同一般需要用野相似度冶来衡量院野相似度冶越高袁则越有可能是同一个POI曰野相似度冶越低袁越有可能不是同一个POI遥 在本文中用Leven-shtein距离来衡量野相似度冶袁其计算过程如下:渊1冤Levenshtein距离Levenshtein距离作为评价文字识别匹配程度的标准之一袁 又称之为编辑距离袁 由VladimirLevenshtein
7、于1965年首次提出袁 是指一个字符串袁通过插入尧删除和替换操作后转换为另外一个字符串的最小步数4袁其相似度计算公式如下院Sim=渊Len-Levnshtein冤/Len上式中袁Len为较长字符串的字符串长度袁Levenshtein为两个字符串的编辑距离遥 如图1c所示中袁野镇海区电子商务产业园冶可以通过4次插入操作后转换为野镇海区(跨境)电子商务产业园冶袁因此野镇海区电子商务产业园冶与野镇海区(跨境)电子商务产业园冶的Levenshtein距离为4袁其对应的相似度为0.71遥 一般来说袁距离越小尧两个字符串的相似度越大袁判定为野重复POI冶概率也越大曰距离越大尧文本的相似度越低袁判定为野重复
8、POI冶概率也越小遥渊2冤Levenshtein-Jaro距离标准Levenshtein距离虽然能够通过记录两个字符串之间的转换次数来衡量文本之间的相似度袁但因其忽略了字符串本身特征渊如字符串中字符的位置冤 且计算效率低袁Matthew在1989年提出了改进Levenshtein-Jaro距离5袁其计算方式如下院Sim013渊ms1+ms2+m-tm冤扇墒设设设设缮设设设设上式中袁s1尧s2表示两个字符串的长度袁m为两个字符串重复的字符数量袁t表示换位数目的一半遥 如图1c中袁s1为14袁s2为10袁m为10袁t为0渊不存在换位字符冤袁计算得到两个字符串的相似度为0.90遥3 结果分析与优化为
9、验证和分析上述方法的有效性袁本文以镇海区骆驼街道2021年天地图POI数据作为示例数据渊共6458个冤袁在Python中开发出相关计算程序袁完成POI判重处理遥 同时袁将计算结果与现有工具检查结果进行对比分析遥3.1 现有工具检查结果运用现有工具渊如图2所示冤袁对镇海区骆驼图 1 野疑似重复 POI冶示例abcm0m0渊2冤渊1冤技术交流ZHEJIANGCEHUI24窑窑浙江测绘 2023 年第 3 期由表2可知袁两种计算后相似度为1的点对数量相当袁共计均为152对左右袁进一步目视判别后发现袁可以判定为野重复POI冶为46个曰对相似度小于1的POI点对袁Levenshtein共计筛选出1506
10、0对袁经目视判别后可以判定的野重复POI冶数量为111个遥Levenshtein-Jaro共计筛选出12247对袁经目视判别后可以判定的野重复POI冶数量为155对遥街道POI数据分别进行野重复点检查冶和野重复点检查渊精确冤冶遥渊1冤野重复点检查渊精确冤冶运用野重复点检查渊精确冤冶工具袁初步检查出136对POI存在重复遥 在对136对POI进行目视判别后发现袁 现有工具所检测的最大距离为110米左右 渊根据检查的结果进行手动量测得到袁存在一定误差冤袁判定为野重复POI冶数量为46个袁其原因在于停车场尧公交站尧公共厕所尧垃圾收集点等合理存在且需要显示的POI被检测出来渊如表1所示冤遥渊2冤野重复
11、点检查冶运用野重复点检查冶工具袁初步检查出455对POI存在重复遥 在对455对POI进行目视判别后发现袁现有工具所检测的最大距离同样为110米左右渊根据检查的结果进行手动量测得到袁存在一定误差冤袁判定为野重复POI冶数量为13个遥综合袁运用现有工具共计检查出野重复POI冶点59个遥3.2 Levenshtein 两种方法检查结果根据现有工具检测距离袁 设定判定距离为110米袁对镇海区骆驼街道POI数据进行计算袁得到结果如表2所示遥图 2 POI 现有检查工具表 1 现有工具检查结果类别POI 数量渊对冤停车场/车库26公交站38公共厕所16垃圾收集点10其他 POI46表 2 Levensh
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 Levenshtein Jaro 距离 POI 处理 实现
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。