基于高速公路收费数据的用户交通出行多维度特征分析.pdf
《基于高速公路收费数据的用户交通出行多维度特征分析.pdf》由会员分享,可在线阅读,更多相关《基于高速公路收费数据的用户交通出行多维度特征分析.pdf(8页珍藏版)》请在咨信网上搜索。
1、为提升高速公路信息化管理水平,调节高速公路需求分布不均衡问题,构建了包含时间、空间、用户个人属性 3 个维度的特征指标体系,在 K-means 聚类算法的基础上,设计并使用 Mini-Batch-Kmeans 聚类算法对出行用户进行了分类,同时从时间、空间、个人属性 3 个不同维度深入分析了各类出行特征指标。研究结果表明:1)高速公路出行者多为单次出行或周末出行;2)经 PCA 降维和 Mini-Batch-Kmeans 聚类后,出行用户可分为 6 类;3)时间上,用户出行早晚高峰为 7:009:00 和 16:0018:00;空间上,用户出行站点多在经济水平较高城市,长途用户多在沿海或有货物
2、中转站的城市;个人属性上,通勤用户与长途用户多使用 ETC 支付且花费金额高。关键词:交通工程;用户出行特征;差异化收费;Mini-Batch-Kmeans 聚类;ETC 数据文章编号:1009-6477(2023)03-0151-08 中图分类号:U491.1+2 文献标识码:BMulti-dimensional Characteristics of User Traffic Based on Highway Toll Collection DataWANG Xiaohan1,CAO Rong2,LIU Chunsheng1,JIA Jianmin1(1.Shandong Jianzhu U
3、niversity,School of Transportation Engineering,Jinan 250000;2.Shandong High Speed Co.,Ltd.,Jinan 250000)Abstract:In order to improve the level of highway information management and adjust the imbalance of highway demand distribution,a feature index system containing three dimensions of time,space an
4、d personal attributes of users is constructed.On the basis of K-means clustering algorithm,Mini-Batch-Kmeans clustering algorithm is designed and used to classify travel users.In three different dimensions of time,space and personal attributes,various travel feature indicators are deeply analyzed.Th
5、e results show that:1)Most of the highway travelers are single trips or weekend trips;2)After PCA reduction and Mini-Batch-Kmeans clustering,travel users can be divided into 6 categories;3)In terms of time,the morning and evening peak of user travel is 7:00-9:00am and 4:00-6:00pm.In terms of space,u
6、sers travel stations are mostly in economically developed cities,while long-distance users are mostly in coastal cities or cities with cargo transfer stations.In terms of personal attributes,commuter users and long-distance users pay more ETC and spend a higher amount.Keywords:traffic engineering;us
7、er travel characteristics;differentiated charging;Mini-Batch-Kmeans clustering;ETC data 近年来,随着高速公路网络建设日趋完善,高速公路出行量逐年攀升,公路使用电子支付和 ETC 不停车收费技术逐渐成熟,使得用户更期待安全、快速、通畅的交通出行。目前,ETC 收费数据尽管记录了车辆进入和离开高速公路的个体信息,但高速公路日常产生的巨量通行信息,仍需通过数据分析技术和方法,挖掘高速公路用户潜在的出行特征和出行习惯,以提升高速公路运营管理水平与交通运行效率。目前,通过大数据对用户出行特征进行研究的成果报道逐年增多
8、,从出行时空角度分析交通出行特征是常见的研究途径之一。在空间维度上,吴娇蓉等1通过对上海中心城和新城区的出行方式结构、公共交通出行目的、出行距离、出行空间分布、使用者经济属性等特征进行对比分析,提出了现阶段下新城和中心城市不同的公共交通差异化发展策略;赖坤涛2基于巡游车和网约车时空数据,研究了交通出行的空间分布、整体性、结构性等对城市交通空间分布的影响;李明3基于公交刷卡数据,以栅格的出行量、公交站点 OD 数据等来作为划分城市空间的特征值;Gao 等4利用刷卡数据研究了不同区域的居住空间分布,并分析了居住空间变化的 3 种模式。在时间维度上,郭良久等5基于重庆市历年高速公路收费数据,从时间维
9、度重点分析了五一、国庆、春运等重要节假日对高速公路交通出行特征的影响;刘冬杰等6利用潍坊市高新区车牌识别数据,从交通流量、运行速度等角度进行了多维度交通出行特征分析;毛建等7基于浮动车数据,计算了城市道路路段平均行程时间、路段通行频率、道路等级 3个交通出行特征因素,构建了车辆出行特征分析模型库;吴林8利用轨道出行刷卡、出租车 GPS 等多源数据挖掘了长沙高铁南站的交通出行特征。基于以上研究,为更深入地分析出行者的时空分布特征,研究人员多借助于聚类算法。魏广奇等9基于高速公路收费流水数据,借助 K-means+聚类方法识别高速公路日常通勤车辆,掌握该类车辆的出行时空分布特征;畅玉娇等10采用上
10、海快速路牌照识别系统采集数据,通过 K-means 聚类数据挖掘方法,分析了通勤特征车辆在路网中的出行时空分布;余庆等11基于美国加州高速公路交通数据集,通过改进的模糊 C 均值聚类算法对高速公路交通数据进行了分析,其结果可有效识别高速公路交通状态,提高路网服务水平。综上分析,研究人员大多借助于 K-means 聚类或模糊 C 均值等聚类算法,以用户时空运行大数据研究其出行特征,较少考虑到个人属性方面的出行特征。为此,本文将以 K-means 聚类算法为基础,从时间、空间与个人属性 3 个不同维度方面对出行者的交通出行特性展开深入研究,以供高速公路管理部门个性化出行服务参考。1 数据处理的理论
11、和方法1.1 数据预处理由于收费系统故障、收费 ETC 或微信支付操作不当等因素,调查数据中存在一些异常数据和重复数据,这对分析结果有较大影响。因此,在数据分析前需对调查数据进行整体的检查和清洗,剔除异常数据。1.2 用户分类指标高速公路用户多种多样,每种用户在时间、空间及个人属性上都具有相对稳定的性质。本次研究以收费站数据为基础,以每 2 个相邻的收费站点为一个 OD 点,从时间、空间、个人属性角度进行多维度交通出行特征分析,指标维度如表 1 所示。表 1 用户分类指标维度Table 1 Indicator dimension of users classification 指标维度指标名称
12、指标说明时间工作日出行天数研究时段用户在工作日中出行的天数高峰时期出行天数研究时段用户在工作日高峰时段出行的天数出行天数一个月中用户有高速公路出行的天数空间最大 OD 出行占比研究时段用户经过次数最大 OD 点的次数与用户通过 OD 点总数的比值个人属性出行频率研究时段用户总出行天数出行消费总金额研究时段用户出行所消费的总金额1.3 数据标准化及降维处理从时间、空间、个人属性 3 个不同维度划分用户出行数据,这 3 项指标的纲量和数量级都不同,直接使用会影响分析结果。因此,在聚类前,需对数据按251公 路 交 通 技 术 第 39 卷式(1)进行标准化处理。zij=xij-xisi(1)式中:
13、xi为各个指标的均值;si为各个指标的标准差;xij为实际数据;zij为标准化后的数据。经 PCA(Principle Component Analysis)标准化处理后,6 个指标降维到了 3 个。PCA 降维的基本步骤是:1)将由 M 个用户,6 个聚类指标组成矩阵 XM6特征中心化,并计算矩阵 XM6的样本的协方差矩阵C66。2)计算协方差矩阵 C66的特征向量 e1,e2e6和对应的特征值 1,26,将特征值从大到小排列。3)按照特征值的大小计算协方差矩阵 C66的贡献率和累计贡献率,按式(2)计算。i=i6n=1nr=ri=1i(2)式中:i 为协方差矩阵 C66第 i 列向量的贡献
14、率;r为协方差矩阵 C66前 r 列矩阵的累计贡献率。4)经计算可得 3大于 90%,且本次研究的 6个指标是基于 3 个维度得出的,因此可取投影矩阵的维数为 3。5)按从大到小取前 3 个特征值对应的特征向量作为投影矩阵 S63,将需要降维的矩阵 XM6与投影矩阵 S63相乘,得到降维后的矩阵 Tm3。1.4 聚类算法聚类算法是一种无监督的学习算法,它的主要作用是将具有相似特征的样本自动归到一个类别。常见的聚类算法有层次聚类算法、模糊聚类算法、密度聚类算法等。本文以 K-means 算法作为核心算法,但由于数据集数量过于庞大,则采取从数据集随机抽取一部分样本进行聚类的 Mini-Batch-
15、Kmeans算法。聚类过程:1)从数据集 Y=y1,y2,y3yn中随机抽取指定数量的数据作为一个样本。2)采用 K-means 算法对随机抽取的样本进行聚类。(1)确定数据集 Y=y1,y2,y3yn的高速公路用户聚类类别数目 K,以及聚类中心点的个数 N。(2)对于数据集中的每一个样本用户,计算其到各个初始聚类中心 ci的欧式距离按式(3)计算,并将其划到欧式距离最小的聚类中心对应的类别上。Di(x,ci)=nj=1(xi-cij)2(3)(3)根据各个类别中的用户数据重新计算各个类别的质心,将重新计算的质心作为新的聚类中心,计算公式为:ci=1Myciy(4)式中:M 为各个类别里的样本
16、个数。3)重复 1),以 2)的聚类中心为初始聚类中心,再重复 2),直到聚类中心不再发生变化。4)把计算的聚类中心应用到整个数据集中,以欧式距离最短原则确定用户所属类别。2 实例应用分析2.1 数据获取及预处理以 2021 年 3 月份山东省高速公路收费站的交易流水数据为例进行应用研究,该数据共 4 530 万条,通行车辆类型包括客车,货车和专项作业车,研究时段包含工作日 23 d 和非工作日 8 d,经数据预处理删除重复数据后,剩余数据约 880 万条。2.2 PCA 降维处理在所采集到的交易流水数据中,大部分的高速公路出行者出行次数都较少。为简化聚类分析过程,提前把出行频率为 1 次和只
17、在周末出行的这些具有显著出行特征的用户数据提取出来,并将其定义为 A1 和 A2;对剔除 A1 和 A2 数据的剩余数据集进行 PCA 降维,经 PCA 降维后统计该剩余数据集的时间、空间、个人属性概率密度,如图 1 所示。2.3 Mini-Batch-Kmeans 聚类从剔除 A1 和 A2 数据的剩余数据集中随机抽取数量为 10 000、50 000、100 000、150 000、200 000的样本数据集,计算这 5 个样本数据集经 Mini-Batch-Kmeans 聚类后的 CH 分数,如图 2 所示。从图 2 可知:1)当抽样数为 100 000 时,CH 分数最高,聚类效果最好
18、。2)使用抽样数为 100 000 的数据作为抽样样本,利用平均轮廓系数法得到该抽样样本的最佳聚类数目为 6,即聚类中心点的个数为 6。351 第 3 期 王晓晗,等:基于高速公路收费数据的用户交通出行多维度特征分析(a)出行天数密度(b)工作日出行次数密度(c)工作日高峰出行天数密度(d)最大出行 OD 占比密度(e)消费金额密度(f)出行频率密度图 1 概率密度Fig.1 Probability density图 2 抽样聚类结果Fig.2 Sampling clustering results3)使用 Mini-Batch-Kmeans 聚类算法对抽样样本聚类,总共分为 6 类,并将其编
19、号为 A3、A4、A5、A6、A7、A8。2.4 聚类结果分析经 Mini-Batch-Kmeans 聚类后,将出行数据分为了 A3A8 六类,加上前面剔除的 A1 和 A2 数据,451公 路 交 通 技 术 第 39 卷共分为了 8 类,为将其进行定义,现统计聚类后的 8类数据在时间、空间和个人属性维度上的聚类结果,如表 2 所示。分析表 2 数据可知:1)A1 是出行次数只有一次的用户,将其定义为单次出行用户。表 2 聚类结果Table 2 Clustering results指标A1A2A3A4A5A6A7A8平均出行频率/次12.5353.28336.50115.069.30467.
20、24619.739平均个人出行总消费/元137.17113.78218.751 349.8811 903.14670.711 991.951 009.36平均出行天数11.4662.25320.26911.3326.29926.90312.405工作日出行次数0.72502.54128.84411.0787.03353.0215.33工作日高峰出行天数0.18400.5358.7061.7841.72415.7723.964平均最大 OD 出行占比/%10.4670.4210.3960.3010.3150.4150.32车辆数2 276 295809 5273 884 026134 85790
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 高速公路 收费 数据 用户 交通 出行 多维 特征 分析
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。