基于ADASYN-XGBoost的交通事故自动检测方法.pdf
《基于ADASYN-XGBoost的交通事故自动检测方法.pdf》由会员分享,可在线阅读,更多相关《基于ADASYN-XGBoost的交通事故自动检测方法.pdf(11页珍藏版)》请在咨信网上搜索。
1、交通信息与安全2023 年3 期第 41卷总 244期基于ADASYN-XGBoost的交通事故自动检测方法*陈俊宇1李金龙1许伦辉1,2吴攀1林永杰1(1.华南理工大学土木与交通学院广州 510641;2.广东科技学院计算机学院广东 东莞 510812)摘要:基于数据驱动的交通事故自动检测对道路事故的及时救援与降低事故影响具有重要作用。为解决道路交通事故自动检测中的样本不均衡问题,研究了混合自适应过采样技术与极限梯度提升树算法的交通事故自动检测方法(ADASYN-XGBoost)。其中,为从不均衡的交通事故样本中有效挖掘数据的时空特征与事故发生之间的内在关联规律,构建了初始特征变量组合,引入
2、自适应合成过采样方法(adaptive synthetic oversam-pling method,ADASYN)来平衡事故类与非事故类的样本数量,以增强训练数据的质量;其次,为提高检测效果,构建了基于XGBoost的交通事故检测模型,利用该模型对增强后的数据样本进行特征筛选;最后,为获取最佳参数组合,采用了贝叶斯优化算法对XGBoost进行参数的快速标定。本文使用波特兰高速公路数据集对ADASYN-XGBoost方法进行模型验证与实证研究。结果表明:与先进的基准模型相比,ADASYN-XGBoost的各项检测指标均最优,其F1分数达到94.47%且误检率低至8.95%。在模型训练样本数为2
3、800,500(18%的初始样本量),150(5%的初始样本量)时,ADASYN-XGBoost的F1分数分别为94.47%,88.89%,81.93%。在进一步的消融实验中,均衡正负样本后各基准模型的性能指标提高了2.68%44.85%。本文提出的方法能够有效解决道路交通事故检测中的样本不均衡问题,同时也为道路交通安全预防与事故处理等提供了技术保障。关键词:智能交通;交通事故自动检测;样本不均衡;自适应过采样技术;极限梯度提升树算法中图分类号:U491.3文献标识码:Adoi:10.3963/j.jssn.1674-4861.2023.03.002An Automatic Detection
4、 Method for Traffic Accidents Based onADASYN-XGBoostCHEN Junyu1LI Jinlong1XU Lunhui1,2WU Pan1LIN Yongjie1(1.School of Civil Engineering and Transportation,South China University of Technology,Guangzhou 510641,China;2.ITAcademy,Guangdong University of Science and Technology,Dongguan 510812,Guangdong,
5、China)Abstract:A data-driven approach for automatic detection of road traffic accidents plays an important role in timelyrescue and reducing the impact of road accidents.In order to solve the sample imbalance problem in automatic de-tection of traffic accidents a hybrid adaptive oversampling techniq
6、ue and extreme gradient boosting tree algorithm(ADASYN-XGBoost)is studied.In particular,to effectively mine the intrinsic correlation law between spatio-tem-poral feature of the data and accident occurrence form the unbalanced traffic accident samples.The initial combina-tions of feature variable ar
7、e set.And to improve the quality of the training data,the adaptive synthetic oversamplingmethod(ADASYN)is introduced to balance the number of samples between the accident class and the non-accidentclass.To improving the detection effect,a traffic accident detection model based on extreme gradient bo
8、osting(XG-Boost)is developed,which is utilized to filter the features of the enhanced data samples.Finally,to obtain the best收稿日期:2022-09-22*国家自然科学基金项目(52072130)资助第一作者简介:陈俊宇(1997),硕士研究生.研究方向:交通安全与数据挖掘.E-mail: 通信作者:李金龙(1993),博士研究生.研究方向:时空数据建模与交通信号控制.E-mail:120引言随着城市人口和城市化活动迅速增加,道路交通事故发生的比率显著上升,诱发的交通拥
9、堵现象在城市路网内蔓延,极大地干扰了正常的交通活动。先进的交通检测设备为智能交通系统(intelli-gent transportation system,ITS)提供了如流量、速度与密度等海量的交通数据,也为交通事故检测及事故处理提供了支持1。但在ITS建立初期,数据量不足的问题难以避免,因此迫切需要1个能解决小样本学习问题的方法。随着时间增长,数据量越来越大,若更换模型,必将增加成本。1个能解决小样本问题且适应不同规模数据的检测方法,能有效进行交通事故检测,为交通管理者制定合理的预防与应对措施提供精准的数据支持。同时,在大数据背景下,有效的交通事故检测还能为事发点上游驾驶人提供及时信息,并
10、告知车辆及时绕道,避免加剧拥堵,维持城市路网的正常运行。目前,交通事故自动检测方法可分为4类:基于阈值的传统方法、基于概率的统计学习方法、基于分类的机器学习方法和集成学习方法。其中,传统方法如加利福尼亚算法(california algorithm,CA)2通过判断特征参数是否超过规定阈值来判定异常交通事故的发生。当选取特征变量的检测值超过设定阈值时,算法将样本判定为交通事故并发出警报。例如,李红伟等3提出基于突变强度的检测方法,该方法通过分析交通事故下的流量、速度与占有率突变强度随时间的变化来判定事故是否发生;龙琼等4建立了基于尖点突变理论的城市道路交通流表征模型,通过检测表征事故的离群点来
11、完成交通事故的检测。上述基于突变理论的检测方法通过交通流序列中的突变特征是否超过规定阈值来判定交通事故是否发生,但未对突变的空间分布特征进行深入分析。尹春娥等5基于小波方程建立了高速公路交通事故检测模型,该模型基于交通流突变特征,提出阈值检测自适应策略,从而提高了交通事故平均检测率。然而,该类方法由于阈值设置复杂,可移植性较差,导致检测效果不佳。统计学习方法如偏最小二乘回归6通过对历史数据的时空特征进行统计,获得正常与异常交通运行参数先验分布,并以此计算当前交通状态异常的条件概率,从而判定交通事故是否发生。该类方法严重依赖历史数据的先验分布,对不同的交通场景泛化能力较差,且需要手动进行模型参数
12、的调整和更新。基于机器学习的交通事故检测方法选取流量和速度等基本交通参数作为分类模型的输入,利用异常和正常状态的交通参数训练分类器。目前,多层前馈神经网络(multilayer perceptron,MLP)7-9、支持向量机(support vector machines,SVM)10等算法已被证明能实现交通事故的自动检测。集成学习方法通过构建多个基本学习模型来完成预定任务。大量研究结果表明,该方法在分类与回归等问题上表现优异。例如,Liu等11通过集成SVM和K近邻算法(k-nearest neighbor,KNN)来提高分类器的鲁棒性。贝叶斯分类器12和随机森林(random fores
13、t,RF)13-14在交通事故检测中也有较好的表现。然而,针对道路交通事故检测中的少样本或样本不平衡问题,上述方法难以达到令人满意的效果。Parsa等15采用过采样算法(synthetic minori-ty over-sampling technique,SMOTE)16解决样本不均衡问题。结果证明:与SVM和概率神经网络(proba-bilistic neural networks,PNN)相比,通过SMOTE均衡样本后 PNN 比 SVM 具有更高的检测率。XIE等17对少数类样本进行过采样后,利用RF算法进行combination of parameters,a Bayesian op
14、timization algorithm is used to quickly calibrate the parameters of XG-Boost.In this paper,the ADASYN-XGBoost method is validated and investigated using the Portland Freeway datas-et.The results show that ADASYN-XGBoost optimizes all detection metrics compared to the state-of-the-art bench-mark mode
15、l.TheF1score reaches 94.47%and the false detection rate is as low as 8.95%.TheF1scores ofADASYN-XGBoost are 94.47%,88.89%,and 81.93%when the number of model training samples are 2800,500(18%of the initial sample size),and 150(5%of the initial sample size).In further ablation experiments,the perfor-m
16、ance indexes of each benchmark model after equalizing positive and negative samples are improved by 2.68%to44.85%.The method proposed in this paper can effectively solve the sample imbalance problem in detection of roadtraffic accidents,which also provides technical support for road traffic safety p
17、revention and accident management.Keywords:intelligent transportation;automatic detection of road traffic accidents;sample imbalance;adaptive syn-thetic sampling technique;extreme gradient boosting tree algorithm基于ADASYN-XGBoost的交通事故自动检测方法陈俊宇李金龙许伦辉吴攀林永杰13交通信息与安全2023 年3 期第 41卷总 244期特征筛选,最终建立了 1 个随机子空
18、间 KNN(ran-dom subspace k-nearest neighbor,RSKNN)检 测 模型。然而,该研究仅适用于小样本数据集。综上所述,针对交通事故自动检测任务,现有研究同时存在如下问题:难以构造1组合理且全面的特征变量集;面对小样本和样本不均衡数据时,检测模型的性能不佳;面对不同规模的数据集时,检测模型的鲁棒性难以保证。为解决上述问题,本文融合极致梯度提升树算法(extreme gradient boosting,XGBoost)19,设计了基于 ADASYN-XGBoost 算法的交通事故检测方法。该方法首先综合考虑了交通流状态参数的时空特性,构造了57维特征来描述交通运
19、行状态的事故风险特性;然后,采用ADASYN对不均衡数据集中的少数类别进行扩充;并采用XGBoost对所构造的特征重要性进行排序;最后,将筛选的特征作为样本的最终特征,并使用XGBoost算法进行分类,判别是否为事故样本。本文提出的ADASYN-XGBoost方法能利用间隔20 s的检测器数据构造交通运行状态的时空特征,保证了实时检测;并通过数据增强自动均衡正负样本,有效提取时空特征中的异常风险信息,对道路异常状态进行准确判别。利用真实道路交通运行与事故数据对本文检测算法进行验证,并与其他先进的异常检测方法进行对比分析,从而证明ADASYN-XGBoost方法的有效性和优越性。1问题定义高速公
20、路交通事故风险建模需要采集目标时段内路段的复杂交通流的运行时空特征。在1条高速公路的部分路段(含2个运行方向),设有P个交通检测器,将路段划分为P/2-1段,以距离该高速公路起始点的里程表示它们的位置。按交通运行方向,选取事故发生地点所在路段相邻的2个检测器分为上游和下游检测器,其位置关系见图1。通过2个检测器采集及处理交通流运行参数特征,构造Xi=(xi1xi2xin;yi)为第i个样本,其中xij()j1n为该样本第j个特征,yi01为该样本标签值,0为该路段此时为正常状态,1为异常状态。交通事故检测方法可定义为:通过含有m个样本的训练集Dtr=(X1X2Xm)训练1个交通事故检测器f()
21、Xt,给定t时刻下的特征向量Xt,f()Xt能够自动捕捉Xt中的交通运行异常信息,判定检测器间的路段是否发生事故,yt01为标签值。图1交通事故与检测器的位置分布Fig.1Locationdistributionof trafficaccidentsanddetectors2基于ADASYN-XGBoost的交通事故自动检测方法2.1样本结构设计事故发生前,交通参数波动规律保持稳定。一旦发生交通事故,交通参数在短时间内发生剧烈变化。为合理且全面地表征交通流运行状态,本文根据如下3种思路提取交通流运行特征并设计样本结构。1)采取事故发生时刻所在检测器采样间隔前后1,2,3 min内,所在路段上下
22、游检测器的交通流参数如交通流量、交通速度和道路占有率共36个特征作为第1组特征,代表可能有事故发生的目标检测时刻前后短时间内的交通流运行特征。2)基于事故发生前实际测量数据可获得交通事故发生时的交通参数预测值,该值可以反映事故发生前几分钟交通参数变化的正常趋势。一旦发生事故,这种趋势会转变为异常状态。因此,本文构造事故发生时刻的交通参数值和预测所得交通参数值的差值来表征交通状态是否异常。在研究中,根据前3 min的检测器参数,采用移动评价法来预测事故发生时段内的正常交通参数,采集上、下游检测器的当前参数,将它们的差值作为第2组特征(共18个)。事故发生时,上、下游检测器采集的参数呈现明显差异性
23、,构造参数差值特征在一定程度上反映了事故造成的异常情况,这有助于及时检测事故,本文在这个部分构造了3个特征作为第3组。综上,每个样本由57个表征道路交通运行状态的特征构成,特征详细信息见表1。142.2基于ADASYN的样本均衡ADASYN18常用于机器学习分类任务,其主要思想是通过合成样本来自动将分类决策边界向困难的样本移动,以解决类别不平衡问题。本文利用ADASYN对原始训练集Dtr(事故与非事故样本比例不均衡)进行数据增强。主要计算过程如下。在包含m个样本xi=(xi1xi2xin;yi)的训练集Dtr中,(xi1xi2xin)包含了表1中的所有n个特征,yi-11是与xi对应的类别标签
24、,分别表示非事故与事故;将ms和ml分别定义为事故样本和非事故样本的数量。由此,msml且ms+ml=m。而对训练集Dtr,执行如下步骤。1)计算类别不均衡度。d=msml(1)式中:不均衡度d(01。2)当ddth时(dth是类别不平衡比率的预设阈值)。步骤1。计算每个事故样本需要合成的对应事故样本数量。G=(ml-ms)(2)式中:01为生成合成样本后制定所需平衡级别的参数。=1为操作后形成的1个完全平衡的数据集。步骤2。对于每个样本,根据n维空间中的欧式距离找到K个近邻样本,并计算xi的K近邻样本中非事故样本的占比ri。ri=DiKi=1.msri01(3)式中:Di为xi的K近邻中非事
25、故样本个数。步骤3。对ri进行标准化处理。ri=rii=1msri(4)步骤4。计算每个样本xi需要生成的合成事故样本的个数。gi=riG(5)步骤 5。根据 SMOTE 算法合成样本,SMOTE的计算见式(6)。si=xi+()xzi-xi(6)式中:()xzi-xi为n维空间中的差分向量;为随机数,满足01。2.3基于XGBoost的特征重要性计算本文共构造57个完整的特征变量来表述交通运行状态的异常风险,然而,大多数机器学习和统计模型难以处理高维数据20,需要通过有效方法从初始特征组筛选特征。再剔除一些冗余特征后,保留关键特征作为事故检测分类模型的输入。对于每个特征,计算XGBoost所
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 ADASYN XGBoost 交通事故 自动检测 方法
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。