基于样本熵的港口集装箱吞吐量可预测性测度研究.pdf
《基于样本熵的港口集装箱吞吐量可预测性测度研究.pdf》由会员分享,可在线阅读,更多相关《基于样本熵的港口集装箱吞吐量可预测性测度研究.pdf(7页珍藏版)》请在咨信网上搜索。
1、充NAVIGATION OFCHINAMar.20242024年3月Vol.47No.1第47 卷第1期中国海航文章编号:10 0 0-46 53(2 0 2 4)0 1-0 0 8 1-0 7于样本的港口集装箱吞吐量可预测性测度研李楚楚,林琴,冯冯宏祥,李松1(1.宁波大学海运学院,浙江宁波3152 11;2.加泰罗尼亚理工大学航海学院,巴塞罗那0 8 0 0 3)摘要:港口吞吐量历史时间序列数据具有较强的随机性,而不同特征的时间序列数据的预测精度差异较大,由此产生了时间序列数据可预测性的测度问题。学术界认为,这种可预测性可以用熵进行描述。文章采用样本熵表征测度我国2 0 个港口集装箱吞吐量
2、时间序列数据的复杂性,然后运用自回归综合移动平均模型(ARIMA)预测港口吞吐量。结果表明,样本熵与其预测精度之间的相关性较弱,ARIMA模型对于港口生命周期处于“成长”阶段的港口或者大型港口的预测精度更好。研究结论有助于理解熵和时间序列数据可预测性之间的关系。关键词:集装箱吞吐量;样本熵;自回归综合移动平均模型;生命周期中图分类号:U692.3文献标志码:AD0I:10.3969/j.issn.1000-4653.2024.01.010A study on sample entropy measure of predictabilityfor container throughput of
3、portLI Chuchu,LIN Qin?,FENG Hongxiang,LI So n g(1.Faculty of Maritime and Transportation,Ningbo University,Ningbo 315211,China;2.School of Nautical Studies,Universitat Politecnica de Catalunya,Barcelona 08003,Spain)Abstract:The measure of the predictability with historical time-series data of port t
4、hroughput is one of uncertain issuescaused by the strong randomness of the data.It is suggested that the entropy might be a measure for the predictability.Thisconcept is checked out through examining the container throughput time-series data from 20 ports in China.SampEn(Sample Entropy)is used to me
5、asure the complexity of the time series data and the ARIMA(Autoregressive IntegratedMoving Average)model is used to calculated the container throughput prediction of the port.The research shows that thecorrelation between SampEn and the predictability is rather weak and the ARIMA model is only good
6、for large ports orgrowing ports.Key words:container throughput;sample entropy;Autoregressive Integrated Moving Average;life cycle港口集装箱吞吐量历史时间序列呈现周期性、季节性、波动性和不确定性等特征。同时,集装箱吞吐量的预测性能与这些特性密切相关 2 ,一般认为,数据集越简单,预测效果越好,或者说,数据集越复杂,预测结果越差。从这个意义上说,预测的性能与时间序列数据的复杂性有关,由此产生了时间序列数据可预测性的测度问题。STEVE3和RICH-MAN等 4 提出熵作
7、为时间系列数据复杂性的衡量指标,HILL等 5 和PETER6提出时间序列数据集的可预测性可以由熵来表征。港口吞吐量预测的准确性对港口基础设施的规划和建设决策至关重要。因此探索熵是否与港口交通预测的精度有关,如果相关,那么其关联度又是多少。时间序列数据的可预测性研究领域是预测领域收稿日期:2 0 2 2-0 9-0 2基金项目:高等学校学科创新引智计划(“111计划)(D21013);国家自然科学基金(7 2 2 7 1132);浙江省基础公益研究计划(LGF18E09005)作者简介:李楚楚(1998 一),女,硕士研究生,研究方向为航运与物流研究。E-mail:通信作者:冯宏祥(197 8
8、 一),男,博士,副教授,博士生导师,研究方向为海上交通、航运与物流研究。E-mail:f e n g h o n g x i a n g n b u.e d u.c n引用格式:李楚楚,林琴,冯宏祥,等:基于样本熵的港口集装箱吞吐量可预测性测度研究 J.中国航海,2 0 2 4,47(1):8 1-8 7.LI C C,LIN Q,FENG H X,et al.A study on sample entropy measure of predictability for container throughput of portJJ.Navigationof China,2024,47(1):
9、81-87.(in Chinese)中第47 卷第1期国海航82的热门话题。BOFFETTA等 7 认为时间序列的可预测性与时间系列数据的复杂性之间有着密切的关系。目前,有关时间序列的复杂性和预测的准确性的研究在气候、生态、经济等多个领域引起了广泛关注。HUANG等 8 指出随着时间序列的复杂性和可变性的增强,时间序列的可预测性则会出现降低的情况。金红梅等 9 对我国西北地区各季节干旱复杂度和其可预测性进行研究。KAUPPI等 10 证明了历史宏观经济时间序列数据具有普适的、可利用的非线性可预测性。黄元元等 1 通过实证检验股票收益率时间序列的可预测性。在港口交通领域,预测一直处于决策和规划的
10、前沿。目前,港口集装箱吞吐量预测的方法主要有以下三类。第一类基于时间序列分析,从集装箱吞吐量的历史时间数据中挖掘规律,预测未来的集装箱吞吐量。顾子瑜和陈诺 12 使用ARIMA模型对上海港集装箱吞吐量月度数据的子序列进行预测。第二类是因果模型,根据宏观经济指标建立预测模型,得出集装箱吞吐量与腹地经济的关系。江舰等 13 建立了地方进出口总额、地方CDP与集装箱吞吐量之间的二元线性回归。第三类是人工智能模型。李文明 14 利用BP神经网络(Back Propagation neural net-work)对福州港未来3a的集装箱吞吐量进行预测近几十年,人们提出了很多指标来度量时间序列的复杂度,其
11、中包括:Lempel-Ziv复杂度、相似指数分析、变异系数(Coefficient of Variation,CV)、熵(En t r o p y)等。其中,用熵来衡量时间序列的复杂度和可预测性一直是一个热点。杨茂等 15 通过实例证明了近似熵能够有效描述风电功率时间序列的可预测性。XU等 16 利用多尺度熵度量旅行时间序列的复杂度,研究旅行时间的可预测性。CHOU17引人样本分析降雨和径流时间序列不同时间尺度的复杂性。林明明 18 使用信息熵度量不同模型下的蜂窝流量的可预测性。本文引人样本表征吞吐量时间序列数据的复杂度,运用ARIMA模型预测港口吞吐量。然后,探索数据复杂度与预测精度的相关性
12、。最后,对样本熵和预测精度进行K-means聚类,找出两者之间的关系。1模型1.1样本炳样本熵是RICHMAN等 4 提出的一种度量时间序列复杂度的方法。在分析时间序列的复杂性中,少量的数据就可以描述整个系统的复杂程度。样本不假设时间序列的任何概率分布,测量时间序列数据中具有预先指定长度的连续子序列之间的自相似程度 19。样本的具体算法如下1)将时间序列按顺序组成维矢量,即X,=xi,xi+,(i+m-1),1 iN-m+1(1)2)定义X,与X,间的距离dX,X,dX,X,取两者对应元素中差值最大者,即dX,X,=max|Xi+k,Xj+l,0 h m-1;1i,jN-m+l;ij(2)此时
13、X,与X,中其他对应元素间差值自然都小于d,并对每一个i值计算X,与其余矢量X,的距离dX;,X,。3)按照给定的阈值r(r0)对每一个i值统计dX,X r 的数目及此数目与总的矢量个数N-m的比值,记为Bm(r)numberidX,X,rB(r)(3)N-m4)再求所有i的平均值,记为Bm(r)N-m+1BT(r)Bm(r)i1(4)N-m+15)再把维数加1,变成m+1,重复1)4),得到Bm+1(r)和Bm+1(r)。因此,时间序列的样本熵为SampEn(m,r)=lim-InB211(5)Bm(T)但在实际上N不可能为8,当N取有限值时,样本熵为SampEn(m,r,N)(6)Bm(S
14、ampEn(m,r,N)的值与参数m,r,N的选取有关。在一般情况下m=1或2,r=0.10.2 5S,(S是样本的标准差)计算得到的样本熵具有较为合理的统计特性。1.2ARIMA模型ARIMA模型是BOX等 2 0 提出的一种预测模型。其基本思想是将预测对象随时间推移而形成的数据序列视为一个随机时间序列,构成该时间序列的单个时间序列虽然具有不确定性,但是整个时间序列的变化却有一定的规律性。ARIMA模型是在自回归项(AR)、单整项和移动平均项(MA)的基础上对数据扰动项进行建模,将因变量仅对其滞后值以及随机误差项的现值进行回归所建立的模型。ARIMA(p,d,q)本质上是经过d阶差分后的AR
15、MA83李楚楚,等样本炳的港口集装箱吞吐量可预测性测度研究(p,q)模型,其中p为自回归模型的阶数,q为移动平均的阶数。ARIMA模型的数学表达式如下 2 0 W,=Ady,=(1-L)dy(7)式中:d=(1-L)d,是引d的阶差分算子;W是差分后平稳的时间序列,进行ARIMA建模W,=,W-+2w-2+.+,w-p+u+O,ut-1+02ut-2+.+Oqut-g(8)式中:,为AR的系数;,为MA的系数;8 为常数项;u,为随机误差。ARIMA模型的几个特例:如果q=0,则成为P阶的AR模型;当p=O,则成为q阶的MA模型。确定合适q、P是建立ARIMA模型的重要任务。ARIMA的建模步
16、骤如下:1)时间序列平稳性检验。对时间序列进行单位根(Augmented DickeyFull,A D F)检验,判断时间序列是否平稳。若时间序列是非平稳的,需采用差分变换、对数变换等方法,使之平稳;2)模型识别与定阶。通过观察已平稳的时间序列数据的自相关图(AutocorrelationFunction,ACF)及偏自相关图(PartialAutocorrelationFunc-tion,PA CF),确定ARIMA模型中的阶数p、q;3)模型参数估计。在历史时间数据的基础上通过求解相应的方程来预测模型中变量的系数;4)预测模型检验。通过分析真实数据与预测数据之间的相对误差来检验预测模型的有
17、效性,若模型检验不通过,则需返回第二步重新进行模型的识别与定阶。1.3K-means 聚类K-means 聚类是一种无监督学习算法,旨在将 n个观测值划分为K个聚类,其中每个观测值都属于具有最近均值的聚类。K-means算法由 STUART等 2 1 给出了数学证明和算法的详细步骤。K-means算法的基本思想是:给定一个样本集D=x1,2,,x m中,m个数据分成k个簇的集合S=s1,S2,,s s,其中,s;是样本集D的子集,s;ns,=且使得集合U=1s;=D。K-me a n s 聚类得最终目标是使得每个簇内的距离和达到最小,具体公式为xESiu;=(9)式中:u;是s;集合的簇中心向
18、量,用公式表示为argmin,2Zllx-u,I1(10)=XESi1.4模型表现模型表现分别由预测集装箱吞吐量的绝对百分比(AbsolutePercentageError,A p e)和平均绝对百分比误差(MeanAbsolutePercentageError,M A p e)表征,其表达式为Y-YAPE(11)YnY-YMAPEYt=1(12)n式中:Y,为吞吐量的真实值;Y为吞吐量的预测值。2数据和结果2.1数据本文以佛山港(FS)、日照港(RZ)、南京港(NJ)、珠海港(ZH)、威海港(WH)、大连港(DL)、广州港(GZ)、青岛港(QD)、烟台港(YT)、深圳港(SZ)、宁波舟山港(
19、NB)、天津港(TJ)、苏州港(SU Z)、上海港(SH)、连云港(LY)、南通港(NT)、秦皇岛港(QH)、中山港(ZS)、香港港(HK)、惠州港(HZ)20个国内港口和新加坡港、釜山港、鹿特丹港、安特卫普港、巴生港5个国际港口2 0 0 0 2 0 2 0年年度数据作为研究对象;其中:2 0 0 0 2 0 17 年的样本作为训练数据,2 0 18 2 0 2 0 年的样本作为测试数据。国内港口数据来源于港口年鉴和中华人民共和国交通运输部网站。国际港口数据由作者从各种来源收集整理得到。国内港口集装箱吞吐量如图1所示。4500*-FS-NBRA-竹-8-NSUZ4000ZH-SHW H+LY
20、3500二*+一/3000SZH艺2.5002.000-日-日-X1500?AA-A-A1000A500起20002002200420062008201020122014201620182020年份图12 0 个港口2 0 0 0 2 0 2 0 年集装箱吞吐量Fig.1Container throughput of 20 ports from 2000 to 20202.2样本炳结果对2 0 个国内港口的集装箱吞吐量运用Matlab工具箱SampleEntropy进行样本熵计算,根据沈晓燕等 2 2 的实践建议,维数m选择1维,相似容量r的取值为Sp,其中S,(St a n d a n d
21、D e v i a t i o n)是原始序列u(i)的标准差,计算如表1所示。从表1可得:中国第47 卷第1期海航84佛山港、日照港、南京港的样本熵值偏小,均在0.3以下;而秦皇岛港、中山港、香港港、惠州港的样本熵值偏大,均在0.9以上。表1各港口集装箱吞吐量2 0 18 2 0 2 0 年模型参数、样本焰与预测误差Tab.1Model parameters,samples and prediction errors of container throughput of each port from 2018 to 2020模型佛山港日照港南京港珠海港威海港大连港广州港ARIMA(p.d.a
22、)(1,2,2)(3,2,1)(1,2,0)(2,1,2)(1,2,1)(1,2,1)(2,2,1)样本熵0.25490.267 90.28770.307 10.341 70.36180.3930MAPE/%9.279.356.4515.4623.1034.023.12模型青岛港烟台港深圳港宁波舟山港天津港苏州港上海港ARIMA(p.d.)(4,2,2)(2,2,1)(2,1,0)(3,2,1)(1,2,1)(1,2,1)(3,2,1)样本0.441 80.441 80.575 40.501 30.575 40.624 20.670 7MAPE/%0.962.363.121.546.398.9
23、70.98模型连云港南通港秦皇岛港中山港香港港惠州港ARIMA(p.d.)(2,2,1)(2,2,0)(2,2,1)(3,2,2)(2,2,1)(1,1,1)样本熵0.693 10.757 70.92370.98081.491 71.5870MAPE/%4.4922.187.9925.072.869.892.3集装箱吞吐量预测结果使用ADF检验判断港口集装箱吞吐量历史时间序列是否平稳。在ARIMA模型的参数选择中,以预测值与真实值误差最小的模型(MAPE)为最优模型,各模型的系数通过检验,在单位圆内。在对残差的检验中,观察其残差的ACF和PACF图,其残差序列的显著性水平大于0.0 5,因此满
24、足模型检验要求。各港口的模型参数如表1所示。3讨论3.1预测精度和样本熵的关联性分析运用ARIMA模型对2 0 个中国港口进行20182020年集装箱吞吐量预测,各港口的样本熵及MAPE如表1所示。样本熵量化了时间序列的规律性和可预测性。根据LAKE等 2 3,熵值越小,时间序列的复杂度越低;反之,样本熵的值越大,时间序列的复杂度越高。基于此,SAMIRA等 2 4 指出熵值越大,时间序列的规律性和可预测性就越差,因此,随着港口集装箱吞吐量时间序列样本熵的增大,其ARIMA模型的预测误差也应该随之增大。本研究对2 0 0 0 2 0 17 年的港口集装箱吞吐量时间序列进行样本熵和ARIMA模型
25、计算,威海港和大连港的样本熵分别为0.3417 和0.36 18,其预测误差却高达2 3.10%和34.0 2%;香港港和惠州港的样本熵值最高,分别为1.4917 和1.58 7 0,但其预测误差为2.8 6%和9.8 9%,预测精度却较好。由此,可得结果与LAKE等 2 3 及SAMIRA等 2 4 的发现并不一致,从这种意义上讲,样本熵并不是港口集装箱吞吐量历史时间序列的可预测性指标。3.2预测精度的影响因素分析1)港口生命周期的影响分析。GRAINER25认为组织的生命阶段包括诞生、成长、成熟和最终死亡。从港口生命周期的角度分析,CHIU等 2 6 将港口分为“成长 阶段和“成熟”阶段,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 样本 港口 集装箱 吞吐量 预测 测度 研究
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。