基于LightGBM算法的机场聚合离场延误预测.pdf
《基于LightGBM算法的机场聚合离场延误预测.pdf》由会员分享,可在线阅读,更多相关《基于LightGBM算法的机场聚合离场延误预测.pdf(5页珍藏版)》请在咨信网上搜索。
1、第42 卷第1期2024年1月DO1:10.20096/j.xhxb.1008-9233.2024.01.005西安航空学院学报Journal of Xian Aeronautical InstituteVol.42 No.1Jan.2024基于LightGBM算法的机场聚合离场延误预测刘博,王笑天,徐晨(民航中南空管设备工程(广州)有限公司,广州510 0 0)摘要:航班延误预测具有非线性聚合的动力学特征。在保证准确率的前提下为提高预测效率,提出一种基于轻量级梯度提升机(Lightgradient boostingmachine,LightGBM)算法的机场聚合离场延误预测模型。通过对历史航
2、班数据的分析处理,提取时间特征、飞行计划特征和延误特征三类重要特征,并以提取出的特征作为输入变量,采用LightGBM算法基于广州白云机场的历史运行数据对航班延误时间进行预测。结果表明:模型预测延误时间与实际延误时间吻合良好;与其他常用算法的预测结果相较而言,所提模型在各种预测指标上结果更优,效率更高。关键词:聚合延误;延误预测;特征提取;LightGBM算法中图分类号:V355Prediction of Aggregate Flight Departure Delay in Airports Based文献标识码:Aon LightGBM Algorithm文章编号:10 0 8-9 2 3
3、3(2 0 2 4)0 1-0 0 2 6-0 5LIU Bo,WANG Xiaotian,XU Chen(Civil Aviation Guangzhou ATM Systems Engineering Co.,Ltd.,Guangzhou,510o0,China)Abstract:Flight delay prediction has nonlinear aggregation dynamics.In order to improve the pre-diction efficiency under the premise of ensuring the accuracy,a LightG
4、BM(light gradient boostingmachine)algorithm based on airport aggregate departure delay prediction model is proposed.Through the analysis and processing of historical flight data,three important features,the timefeature,the flight plan feature and the delay feature,are extracted,and the extracted cha
5、racteris-tics are taken as input variables.The LightGBM algorithm is used to predict the flight delay timebased on the historical operating data of Guangzhou Baiyun Airport(ZGGG).The results showthat the predicted delay time is in good agreement with the actual delay time.Compared with theprediction
6、 results of other commonly used algorithms,the proposed model has better effect andhigher efficiency in various prediction indexes.Keywords:aggregate delay;delay prediction;feature extraction;LightGBM algorithm收稿日期:2 0 2 3-0 5-0 8作者简介:刘博(1994一),男,河北保定人,助理工程师,主要从事空中交通管理方向的研究。第1期0引言航班延误是未来一段时间民航业所面临的重
7、要挑战。空管因素、航空公司运营因素、空域容量供需不平衡等因素都有可能导致航班延误。航班延误可明显影响民航系统的运行效率,所造成的经济损失与社会影响不容忽视,因此,对航班延误进行预测具有重要意义。目前,航班延误预测的研究方法主要有基于延误传播的方法和基于数据驱动的方法两类。基于延误传播的方法侧重于研究航空运输网络中的航班延误传播现象,并试图基于该网络的潜在机制来预测航班延误。Beatty等i通过检查初始延误、延误频率和航班时刻表连通性来研究延误的传播。Xu及合作者2-3 提出使用贝叶斯网络对延误的产生及机场缓解延误的程序进行建模。Pyrgiotis 等4开发排队网络模型来研究航班延误的传播。近年
8、来,基于数据驱动的方法成为相关研究的常用方法。该方法采用数据挖掘、统计分析或机器学习技术直接预测航班延误,不需要探索延误传播机制。数据驱动的诸多相关模型及算法已被用于预测航班延误,其中包括随机森林算法、极端随机树和支持向量机等。Rebollo等5 提出了基于网络的空中交通延误预测模型,该模型将时间和空间延误状态作为解释变量,并使用随机森林算法来预测离场延误。罗赞骞等6 建立了基于支持向量机回归的航班到达延误预测模型,并发现了到达延误时间序列具有混沌特性。Khanmohammadi等门引人了多级输人层人工神经网络来预测进港航班的延误。模型中使用了日期(包括月份和星期)、出发机场、计划起飞时间和实
9、际起飞时间等特征作为输入变量。Belcastro等8 使用并行算法预测航班进港延误,同时考虑了航班信息(计划起飞和到达时间)以及起飞和到达机场的天气条件。徐海文等9利用深度神经网络模型并结合时效信息,建立了离场航班延误预测模型。陈昱君等10 则利用自动编码器改进了基本BP神经网络算法,以进行离港航班延误时间预测。目前的研究大部分着眼于个体航班的延误程度,对于旅客而言,关注个体航班的延误程度便于对行程做出预先规划,对于航司而言,单个航班的刘博,等:基于LightGBM算法的机场聚合离场延误预测数据预处理及特征选取航班起降数据选取2 0 17 年3 月1日一2 0 18 年2月2 8 日广州白云机
10、场的历史运行数据,共494135条,其中,航班返航、备降及字段缺失严重等数据共8 56 7 条,占总量的1.7%左右,这部分数据直接做删除处理。通过对选取数据的分析处理,结合以往关于航班离场延误的研究,对一线人员的咨询,提取出时间特征、航班计划特征及延误特征3 类共14条与机场延误相关的聚合特征,如表1所示。27延误程度对后续运行的经济收益、公司信誉等都会有重要影响。而对于空中交通管理者而言,以机场、机场对乃至整个空中交通系统为统计对象的聚合延误则更容易帮助其了解系统性延误演化趋势,以帮助做出科学决策11。区别于以往重点将航班个体作为主体对象的延误研究,本文将机场的航班聚合离场延误作为预测研究
11、的主体,并采用机器学习的方法进行分析,以期为空中交通管理者的流量管理决策提供依据。LightGBM算法是一种高效高性能分布式的基于决策树算法的梯度提升框架,可用于排序、分类、回归等多种机器学习任务中。本文以机场为统计对象,基于LightGBM算法建立了航班聚合离场延误预测模型,并利用广州白云机场(ZGGG)的历史运行数据,将该模型与其他常用算法模型的预测结果进行对比,验证模型的可靠性和有效性。1预测指标本文聚焦于机场航班聚合离场延误时间的预测,是对延误持续时长的回归(定量)预测,不是对延误是否发生的分类(定性)预测。预测指标Y为航班聚合离场延误,即为每个预测时段内机场所有离场航班的平均延误时间
12、。本研究选取1h为预测时段的时长,即Y为未来1小时内该机场所有离场航班预计离场延误的平均值。为了使预测结果更具直观性,将每个航班的离场延误时长定为实际起飞时间晚于预计起飞时间的时长,不考虑航班延误分类预测中定性判定延误的15 min阈值。2楼28特征时间特征飞行计划特征延误特征其中,本时段累计需要进场/离场航班数,指的是机场本时段需满足进场/离场航班的数量,是本时段计划进场/离场航班的数量与本时段之前因延误未完成进场/离场航班的数量之和。前一时段进场/离场航班的延误数量,指的是前一时段实际进/离场时间减去计划进/离场时间不小于15min的航班数量。将收集的数据分时段(1h),按如上特征进行整合
13、,得到结构为8 7 6 0 X14的特征数据集。此外,考虑到机场0 0:0 0 一0 6:0 0 起降航班量较少,故选取06:00一2 4:0 0 的航班起降数据作为样本,最终得到6570X14的特征数据集。预测指标为本时段离场航班的平均延误时间,处理得到6 57 0 X1的标签数据集。由于各变量的量纲数据跨度较大,故对特征数据集及标签数据集进行归一化处理,目的是使各特征数据处于相同的数量级,消除它们之间的量纲差异对预测结果产生的影响。标准化处理公式为(1)VVarLa式中:i为某特征的样本数值;E为样本总体的数学期望;Var为样本总体的方差;;为样本标准化后的数值。3预测模型建立3.1Lig
14、htGBM算法原理LightGBM算法是基于梯度提升决策树(Gradient Boosting Decision Tree,GBDT)的算法框架,GBDT与目前流行的 Xgboost(e Xt r e m e G r a d i e n tBoosting)算法相比,训练速度更快,内存消耗更低,准确率更高12 。LightGBM原理与Xgboost类似,通过损失函数的泰勒展开式来近似的表达残差,并利用正则化项控制模型的复杂度Oj*=,L(y:,y,(-1)+f(a,)+2(f)+C(2)西安航空学院学报表1选取数据特征式中:L为损失函数(平方损失函数或者logistic损子特征失函数);y;指
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 LightGBM 算法 机场 聚合 延误 预测
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。