基于中心移动的轨迹离群点检测.pdf
《基于中心移动的轨迹离群点检测.pdf》由会员分享,可在线阅读,更多相关《基于中心移动的轨迹离群点检测.pdf(8页珍藏版)》请在咨信网上搜索。
1、基于中心移动的轨迹离群点检测杨洪宁,徐文进,杜珍珍,姚佳禹(青岛科技大学信息科学技术学院,青岛266061)通信作者:徐文进,E-mail:摘要:AIS 数据是指通过 AIS 系统获取的船舶运动轨迹信息,对其进行挖掘可以获得船舶的运动模式、航行路线、停靠地点等信息.但其在采集过程中产生的离群点会对聚类等任务造成负面影响,因此对 AIS 数据挖掘之前需要进行离群点检测.然而,当 AIS 轨迹数据中存在大量离群点时,会导致大多数离群点检测算法的准确率显著下降.为了解决这个问题,本文提出了一种基于中心移动的轨迹离群点检测算法(centershiftoutlierdetection,CSOD).通过迫
2、使数据点向其 K 近邻集合的中心移动,使每个数据点更加接近典型数据,从而有效地消除了离群点对聚类的影响.为了验证本文算法的有效性,使用浙江海域 AIS 渔船轨迹数据集,将本文提出的 CSOD 算法与一些经典的离群点检测算法进行了对比实验.实验结果表明,CSOD 算法整体上性能更加优越.关键词:AIS 数据;离群点检测;聚类;K 近邻;异常值得分引用格式:杨洪宁,徐文进,杜珍珍,姚佳禹.基于中心移动的轨迹离群点检测.计算机系统应用,2023,32(12):189196.http:/www.c-s- Outlier Detection Based on Center ShiftYANGHong-N
3、ing,XUWen-Jin,DUZhen-Zhen,YAOJia-Yu(SchoolofInformationScienceandTechnology,QingdaoUniversityofScienceandTechnology,Qingdao266061,China)Abstract:AISdatareferstothevesselsmotiontrajectoryinformationobtainedthroughtheAISsystem.MiningAISdatacanprovideinsightsintothevesselsmotionpatterns,navigationroute
4、s,dockinglocations,etc.However,outliersgeneratedduringtheAISdatacollectioncanhaveanegativeeffectonclusteringandothertasks.Therefore,outlierdetectiononAISdatabeforeminingisnecessary.However,whentherearealargenumberofoutliersinAIStrajectorydata,asignificantdecreaseoccursintheaccuracyofmostoutlierdetec
5、tionalgorithms.Toaddressthisissue,thisstudyproposesatrajectoryoutlierdetectionbasedoncentershift(CSOD).TheCSODalgorithmencouragesdatapointstomovetowardsthecenteroftheirK-nearestneighbor(KNN)set,makingeachdatapointclosertotypicaldataandeffectivelyeliminatingtheinfluenceofoutliersonclustering.Tovalida
6、tetheeffectivenessoftheproposedalgorithm,thestudyconductscomparativeexperimentsbetweentheCSODalgorithmandseveralclassicaloutlierdetectionalgorithmsusingtheAISfishingvesseltrajectorydatasetintheZhejiangseaarea.TheexperimentalresultsdemonstratethattheCSODalgorithmoutperformstheotheralgorithmsintermsof
7、overallperformance.Key words:AISdata;outlierdetection;clustering;K-nearestneighbor(KNN);outlierscore在数据挖掘过程中,通常会存在一些偏离正常数据的对象,这些对象被称为离群点.根据偏离程度,可将其分为强离群点和弱离群点.强离群点1通常被视为异常点,但不一定是错误的数据,它们往往包含重要信计算机系统应用ISSN1003-3254,CODENCSAOBNE-mail:ComputerSystems&Applications,2023,32(12):189196doi:10.15888/ki.csa.0
8、09329http:/www.c-s-中国科学院软件研究所版权所有.Tel:+86-10-62661041收稿时间:2023-06-07;修改时间:2023-07-12;采用时间:2023-07-19;csa 在线出版时间:2023-09-15CNKI 网络首发时间:2023-09-18SoftwareTechniqueAlgorithm软件技术算法189息.通过分析强离群点可以实现欺诈行为检测2、异常设备检测3以及网络安全检测4.弱离群点1则被认为是噪声点,噪声点会导致模型准确性降低、泛化能力不足等问题,进而对数据分析的结果产生负面影响.因此,离群点的检测和处理是非常重要的.离群点检测在机器
9、学习和数据挖掘中具有广泛的应用,它可以帮助发现异常行为、提高数据质量.通常,离群点检测根据参考集的大小可以分为全局离群点检测和局部离群点检测.参考集是用来建模和计算离群点得分的一组基准样本集合.在全局离群点检测方法中,参考集通常包含数据集中的所有对象,因此可以全面地考虑整个数据集的特征和分布.全局离群点检测方法主要指基于统计模型5的方法.而在局部离群点检测方法中,参考集则是某个数据点邻近区域内的对象.局部离群点检测方法包括基于密度的方法6、基于距离的方法7以及基于聚类的方法8.在众多离群点检测方法中,基于聚类的方法因其较高的可扩展性和适用性而被广泛应用.基于聚类的方法可以将数据点划分为相似的簇
10、,但对于离群点来说,它们与其他数据点的差异较大,往往无法被归类到任何一个簇中,而是被单独作为一组.在聚类任务中,如果存在大量的离群点,将会导致聚类效果显著下降,从而影响后续的数据挖掘工作.因此,离群点的检测和剔除可以被视为聚类任务的预处理步骤.然而,将剔除离群点作为聚类分析的前提与使用聚类方法进行离群点检测的初衷背道而驰.如何在不影响聚类任务和离群点检测效果的情况下正确处理离群点,仍然是当前亟待解决的问题.除此之外,包括基于聚类方法在内的大多数传统离群点检测方法,在选择阈值参数或确定离群点数量方面需要手动操作.而这些参数需要根据先验知识或领域经验进行选择,随意选择很容易导致结果不准确或不一致.
11、因此,实现自动化选择阈值或确定离群点数量能够提高离群点检测的准确性和可靠性,对于离群点检测具有重要意义.针对上述问题,本文提出了一种基于中心移动的轨迹离群点检测算法.关键思想是使数据点向其 K 近邻(K-nearestneighbor,KNN)集合的中心移动,促使每个数据点靠近更密集的区域.这意味着每个数据点会更接近典型的数据点,从而有效地抵消离群点对聚类的影响.此外,该方法计算所有数据点的异常值分数,并将异常值分数的标准差作为全局阈值,用于判定数据点是否为离群点,从而避免了手动选择阈值参数.本文算法在实现离群点检测的同时,还可以完成对数据的聚类工作,并进一步应用于后续的热点挖掘工作.本文的主
12、要贡献有以下 3 点.(1)提出了一种基于中心移动的轨迹离群点检测算法,将每个数据点移动到其 KNN 集合 Ni的中心,从而使其更加接近典型数据点,以此来抵消离群点对聚类的影响.(2)与传统离群点检测算法不同,本文算法不需要手动选择阈值参数或确定离群点数量,而是将所有数据点异常值分数的标准差作为全局阈值,用于离群点的判定.(3)不同于传统离群点检测算法的验证数据集,本文采用渔船 AIS 轨迹数据集对所提算法进行验证.相对于其他数据集,轨迹数据集的离群点检测具有数据存在时序性、数据分布不均、数据维度高等难点.尽管如此,本文算法相较于其他算法的 F1-score 仍能平均提高 0.18,离群点检测
13、时间也能平均减少 5.3s.本文第 1 节介绍对轨迹数据进行异常检测的不同方法及各自研究现状.第 2 节给出本文算法涉及的相关概念.第 3 节详细介绍本文算法的流程.第 4 节实验与结果分析.第 5 节是结论与展望.1研究现状轨迹数据挖掘的目标是从大量移动对象中提取共同的特征,为了实现这一目标,需要对轨迹数据进行离群值的检测和处理.由于轨迹数据具有时序性和连续性等特点,使得单个真实轨迹数据点的分析价值有限,这就导致了轨迹数据集中的离群点多为弱离群点,即噪声数据.在不同的研究领域中,噪声数据所代表的含义和性质都有所不同.Zhu 等人9认为轨迹领域中的噪声数据是指在某些相似性度量方面与大多数轨迹点
14、存在显著差异的轨迹点.由于轨迹数据的采集设备通常存在测量误差、信号干扰等问题,导致噪声数据在实际应用中是难以避免的.因此,在对轨迹数据进行挖掘之前必须进行去噪处理,避免噪声数据引起的偏差对后续数据分析产生负面影响.由于轨迹数据具有数据量大、数据稀疏以及数据更新频率快等特点,使得噪声数据的检测仍存在挑战性10,11.现有的噪声数据检测方法主要分为 3 类:基于历史轨迹数据的噪声检测、基于网格化的噪声检测、基计 算 机 系 统 应 用http:/www.c-s-2023年第32卷第12期190软件技术算法SoftwareTechniqueAlgorithm于距离的噪声检测.Li 等人12提出了一种
15、基于历史轨迹相似性的度量方式,称为时序噪声值检测框架(TOD).该框架利用数据集的时序信息来检测噪声值.它通过比较每个路段与其他路段在相同时间步长内的运动轨迹,计算它们之间的相似性值,并将历史相似性值记录在每个路段的时间邻域向量中.当某个路段的相似性值与之前的历史值发生急剧变化时,该路段被认为是噪声值.Chawla 等人13将道路交通建模为一个基于时间依赖流的网络,将城市划分为以主要道路为界的区域,并通过识别各链路与历史流量配置文件的偏差来检测异常链路.Pang 等人14对 iForest 算法与懒惰学习方法进行创新,提出了一种异常检测方法.该方法将每个轨迹划分到随机选定的不同单元格中,并提出
16、假设:异常轨迹所涵盖的单元格数量应小于正常轨迹所涵盖的单元格数量,从而实现异常数据的检测.Chen 等人15提出了一种实时的异常轨迹检测方法 iBOAT.在该方法中,使用固定窗口的方式来代替网格进行数据处理,并通过计算阈值大小来检测异常轨迹.Knorr 等人16以数据的速度和方向为切入点,提出了一种基于距离的异常值检测方法.计算轨迹对象之间的平均加权距离并作为判定指标,来判断该轨迹是否异常.Lei 等人17提出了一种基于聚类距离度量的轨迹异常检测方法,用来检测 AIS 轨迹数据中的距离异常、航向异常和速度异常.尽管以上方法在轨迹数据的噪声检测方面取得了一定效果,但仍存在局限性.在基于历史轨迹数
17、据的噪声检测中,由于轨迹数据在采集过程中可能存在定位误差、数据缺失等问题,因此很难获取完全准确的历史轨迹,这就导致了噪声数据的检测结果通常不够准确.在基于网格化的噪声检测中,需要手动设置一些参数,如网格的划分单位、窗口的大小等.因此,噪声数据的检测结果与参数之间具有较强的关联性,很容易受到参数的影响.而基于距离的噪声检测方法对于噪声和异常值非常敏感,即使是微小的距离变化,都可能对检测结果产生较大的影响.2相关概念致力于抵消离群点对轨迹数据聚类的影响,本文提出了一种基于中心移动的轨迹离群点检测算法.该算法以最近邻思想和距离判定为基础,以轨迹数据的特征空间为输入.涉及的相关概念如下.x1,xn)y
18、1,yn)(1)最近邻:是一种基于距离度量的概念,通过计算数据点之间的距离来确定它们之间的相似性或接近程度.常见的最近邻算法是 KNN 算法18.KNN 算法的思想:在数据集特征空间中,计算某个数据点与数据集中所有数据点之间的距离,选取距离最近的 k 个数据点作为其最近邻,并根据最近邻的类别或属性值进行分类.由于欧氏距离计算方法简单直观,因此被视为一种常用的距离度量方法.当特征空间的数据样本为N 维时,数据点 x(与数据点 y(的欧氏距离公式为:d(x,y)=vtni=1(xiyi)2(1)(2)距离判定:是一种用来确定数据点是否为离群点的方法,该方法基于设定的距离阈值来确定离群点.如果一个数
19、据点与其他数据点之间的距离超过了阈值,就被认为是离群点.T=(p1,p2,pi,pn),0 i npi=(loni,lati,ti,fi)lonilatitifiti(3)特征空间:是指由多个特征组成的空间,每个特征在空间中对应一个维度.本文中的轨迹点特征空间可以表示为,其中轨迹点,和分别表示 时刻轨迹点所在位置的经纬度,表示 时刻轨迹点的运动特征,如速度、角度、加速度等.3本文算法本节讨论了基于中心移动的轨迹离群点检测算法CSOD 的具体流程,主要分为 3 个部分:确定 KNN 集合、确定 KNN 集合的中心点以及判别离群点.算法流程如图 1 所示.3.1 基于特征距离确定 KNN 集合pj
20、lonj,latjpklonk,latk计算轨迹特征空间中不同数据点之间的距离,为每个数据点找到 k 个最近邻居点.由于轨迹数据包含经纬度特征,因此使用欧氏距离公式计算球体表面上的轨迹距离的方法不再适用,通常使用半正矢公式19来进行距离计算.因此,本文采用半正矢距离公式来计算两个轨迹点之间的地理位置距离.当两个轨迹点的经纬度坐标为()和()时,地理位置距离计算公式表示为:d1(pj,pk)=2rarcsin(sin2A+cos(latj)cos(latk)sin2B)(2)2023年第32卷第12期http:/www.c-s-计 算 机 系 统 应 用SoftwareTechniqueAlgo
21、rithm软件技术算法191(latjlatk)/2(lonjlonk)/2 d1(pj,pk)pjpkpjpkfj=(fj1,fj2,fjn)fk=(fk1,fk2,fkn)其中,A=,B=,表示轨迹点、之间的地理位置特征距离,r 表示地球半径.除经纬度特征外,轨迹数据中通常还存在速度、角度等运动特征,我们使用欧氏距离公式计算两个轨迹点之间的运动特征距离.当两个轨迹点和的运动特征分别为和时,运动特征距离计算公式表示为:d2(pj,pk)=vtni=1(fji fki)2(3)d2(pj,pk)pjpk其中,表示轨迹点、之间的运动特征距离.基于上述计算出的地理位置特征距离和运动特征距离,可以得
22、到两个轨迹点之间的特征距离.特征距离计算公式表示为:dist(pj,pk)=d1(pj,pk)+d2(pj,pk)(4)dist(pj,pk)pjpkpiNi T,0 i n其中,表示轨迹点、之间的特征距离.基于此,我们可以计算出特征空间中不同数据点之间的距离,并为每个数据点找到 KNN 集合.轨迹点对应的 KNN 集合为.经纬度坐标运动特征地理位置特征距离运动特征距离特征距离稀疏度得分边缘度得分集合中心点异常值得分判别离群点确定 KNN 集合确定 KNN 图 1算法流程图 3.2 基于边缘度得分确定 KNN 集合Ni的中心Ni为了消除离群点造成的负面影响,我们让每个数据点向其 KNN 集合的
23、中心移动,促使数据点向更密集的区域聚集,从而使每个数据点都更加接近典型数据点.移动过程如图 2 所示.我们通过计算数据点的稀疏度得分和边缘度得分来确定每个 KNN 集合的中心点.原始数据点中心数据点图 2轨迹点移动示意图piNipipiNi=p1,p2,pk,pi Ni首先根据特征距离公式计算每个数据点的稀疏度得分:将数据点到其 KNN 集合中所有数据点的特征距离之和作为的稀疏度得分,进而得到所有数据点的稀疏度得分.数据点的稀疏度得分越高,意味着该数据点的近邻区域越稀疏.假设数据点的 KNN 集合,则稀疏度计算公式表示为:spari=kj=1dist(pi,pj),pj Ni(5)sparip
24、iNiNi其中,表示数据点的稀疏度得分.然后在已知数据点稀疏度得分的情况下,计算集合内每个数据点与其他数据点的稀疏度乘积之和,并将结果作为该数据点在集合内的边缘度得分.边缘度计算公式表示为:margm=kn=1,n,msparmsparn(6)margmpmNiNi其中,表示数据点的边缘度得分.边缘度得分越低,表明数据点越靠近集合的中心区域.因此,我们选取边缘度得分最低的数据点作为该 KNN 集合的中心点.3.3 基于异常值得分判定离群点NipiNipi确定 KNN 集合的中心后,计算每个数据点的异常值得分并判定离群点.首先将数据点移动到 KNN集合中心点位置,然后计算两者的边缘度得分之差,该
25、差值被定义为数据点的异常值得分.异常值得分计算公式表示为:scorei=margimarg(7)scoreipi其中,表示数据点的异常值得分,marg 表示集计 算 机 系 统 应 用http:/www.c-s-2023年第32卷第12期192软件技术算法SoftwareTechniqueAlgorithmNi合中心点的边缘度得分.该过程迭代 3 次后,对数据点的异常值得分进行统计,并将全部数据点异常值得分的标准差作为阈值,超过阈值的数据点即为离群点.离群点判定示意图如图 3 所示.离群点正常点阈值图 3离群点判定示意图基于以上描述,本文设计的离群点检测算法流程如算法 1 所示.算法 1.CS
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 中心 移动 轨迹 离群 检测
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。