基于改进的多算法融合地铁站内乘客行为识别.pdf
《基于改进的多算法融合地铁站内乘客行为识别.pdf》由会员分享,可在线阅读,更多相关《基于改进的多算法融合地铁站内乘客行为识别.pdf(11页珍藏版)》请在咨信网上搜索。
1、第 20 卷 第 11 期2023 年 11 月铁道科学与工程学报Journal of Railway Science and EngineeringVolume 20 Number 11November 2023基于改进的多算法融合地铁站内乘客行为识别章宇翔,李先旺,贺德强,贺岁球,陈彦君,李琴(广西大学 机械工程学院,广西 南宁 530004)摘要:乘客的行为识别在保障乘客安全方面发挥着重要作用,它能提高地铁站对乘客安全的管理能力。然而,由于地铁车站内乘客人数众多,在出现照明变化和人员遮挡时会严重影响识别的准确率。为了解决准确率低的问题,在时空图卷积神经网络(STGCN)的基础上结合有效通
2、道注意力网络(ECANet),加强了不同节点的连接,提出一种STEGCN节点注意力算法。此外,为了进一步提高准确率,采用双流结构,更进一步提出一种 2s-STEGCN 算法。应用 Alphapose 框架,结合YOLOv5_m目标检测算法、SPPE单人姿态估计算法和2s-STEGCN算法,提出一种改进的多算法融合行为识别方法用于地铁站内乘客的行为识别。首先,利用YOLOv5_m对乘客进行框定;然后,通过SPPE对框定的乘客进行骨骼关键点提取;最后,将提取到的骨骼关键点以坐标的形式输入2s-STEGCN,完成乘客的行为识别。为了验证2s-STEGCN算法的有效性,使用南宁地铁1号线的客流数据集分
3、别在单人场景与多人场景下开展实验。实验结果表明:在损失值方面,2s-STEGCN具有最低的损失值,它的损失值仅为0.244,比STGCN的损失值低约0.025,这表明了2s-STEGCN具有更强的模型构建能力。在准确率方面,单人场景下的2s-STEGCN拥有最高的准确率,它的准确率达到96.13%,比STGCN高3.69%。此外,2s-STEGCN的准确率在多人场景下也有明显提升。该实验结果可为地铁乘客行为识别提供参考和理论支持。关键词:行为识别;时空图卷积;目标检测;姿态估计中图分类号:TP18 文献标志码:A 开放科学(资源服务)标识码(OSID)文章编号:1672-7029(2023)1
4、1-4096-11Passenger action recognition in subway stations based on improved multi-algorithm fusionZHANG Yuxiang,LI Xianwang,HE Deqiang,HE Suiqiu,CHEN Yanjun,LI Qin(School of Mechanical Engineering,Guangxi University,Nanning 530004,China)Abstract:Passenger action recognition plays a vital role in safe
5、guarding passenger safety,which improves the capability of managing passenger safety in subway stations.However,the accuracy of the passenger action recognition is seriously affected by the large number of passengers in the subway stations when there are lighting changes and obstructions.Thus,to sol
6、ve this problem,a STEGCN algorithm was proposed based on a spatio-temporal graphic convolutional neural network(STGCN)combined with an effective channel attention network 收稿日期:2023-01-11基金项目:国家自然科学基金资助项目(U22A2053);广西创新驱动发展专项(桂科 AA20302010);广西研究生教育创新计划资助项目(YCBZ2022043)通信作者:贺德强(1973),男,湖南桃江人,教授,博士,从事列
7、车故障诊断与智能维护、列车优化控制研究;Email:DOI:10.19713/ki.43-1423/u.T20230047第 11 期章宇翔,等:基于改进的多算法融合地铁站内乘客行为识别(ECANet),with enhanced connectivity of different nodes.In addition,an algorithm of 2s-STEGCN was further proposed by using a dual-stream structure to achieve further improvement in the accuracy of passenger
8、action recognition.Specifically,the Alphapose framework was applied in combining the YOLOv5_m object detection algorithm,the single-person pose estimation(SPPE)algorithm and the 2s-STEGCN algorithm to present an improved multi-algorithm fusion action recognition method for the passenger action recog
9、nition in subway stations.Firstly,the passenger was framed using the YOLOv5_m algorithm.Secondly,the skeletal key points of the framed passenger were detected by the SPPE algorithm.Finally,the detected skeletal key points were input into the 2s-STEGCN algorithm as coordinates to realize passenger ac
10、tion recognition.To verify the validity of the 2s-STEGCN algorithm,experiments were conducted using the passenger flow dataset of Nanning Rail Transit Line 1 in single-person scenarios and multi-person scenarios,respectively.The results show that the 2s-STEGCN algorithm has the lowest loss value,whi
11、ch is only 0.244,lower than that of the STGCN algorithm by about 0.025.The results indicate that the 2s-STEGCN algorithm has a stronger model-building ability.Regarding the accuracy rate,the 2s-STEGCN algorithm possesses the highest accuracy rate in single-person scenarios,which reaches 96.13%,3.69%
12、higher than that of the STGCN algorithm.Additionally,the accuracy rate of the 2s-STEGCN algorithm in multi-person scenarios is also significantly improved.Therefore,the results of this experiment can provide reference and theoretical support for subway passenger action recognition.Key words:action r
13、ecognition;spatio-temporal graph convolutional;object detection;pose estimation 地铁给人们带来快速、便捷、有序的交通环境,使其成为解决大城市交通拥堵的理想方式。如今,地铁已经成为大多数城市居民日常出行的首选12。然而,随着地铁乘客的增多,威胁到乘客生命安全的行为概率也将增大。为了保证地铁站内乘客的安全以及地铁站的正常运营,车站需要对乘客的异常行为进行准确的把控。目前,常用的方法是先利用车站内的摄像头对乘客行为进行采集,再使用行为识别算法对乘客的行为进行判断,最后将结果及时转递至车站的中央控制室。常用的行为识别算法分
14、为2种:一种是传统行为识别方法,另一种是基于深度学习的方法。传统方法中最经典的模型是iDT(improved Dense Trajectories)34,然而随着深度学习的不断发展,iDT不仅在效果方面比深度学习差,而且识别的速度极慢。因此,在行为识别领域,传统算法已经逐渐被深度学习算法取代。基于深度学习的方法主要分为3种:1)基于三维卷积的方法;2)基于双流结构的方法;3)基于骨骼关键点的方法。三维卷积是在二维卷积的基础上添加时间维度,可直接提取包含时间和空间2个方面的特征5;双流结构是将行为识别中的特征提取分为2个分支,最后结合2种特征进行行为识别67;基于骨骼关键点的行为识别方法主要是以
15、姿态估计算法的结果作为输入而进行的行为识别,利用骨骼关键点的信息描述行为不仅是当前最准确的方式,且不易受到场景和光照等影响,适应性强。由于车站内乘客人数众多,在出现照明变化和人员遮挡时会严重影响识别的准确率。因此,本文选用基于骨骼关键点的方法对地铁站内的乘客进行行为识别。为此,提出一种具有双流结构的2s-STEGCN用于站内乘客的 行 为 识 别。具 体 而 言,本 文 将 ECANet 与STGCN相结合构造STEGCN,增强关键点之间的联系,以提高行为识别的准确率。此外,引入双流结构,一个流提取人体关键点的空间特征,另一个流提取图与图之间的时间特征,最后将2个流融合,以求进一步提高模型性能
16、。1 相关工作如今,随着人体姿态估计和图卷积的不断发展,基于骨骼关键点的行为识别已经成为了一个热门的研究领域。基于骨骼关键点的行为识别可细分为3种,分别是基于RNN,CNN和图卷积网络的方法。基于RNN的方法通常是将骨骼信息以4097铁 道 科 学 与 工 程 学 报2023 年 11月坐标向量的形式表示,利用坐标向量表示人体的关节。DU等8主张将人体骨骼分为5个部分,并提出了一种端到端的分层级RNN方法。LIU等9将基于 RNN 的 3D 动作识别扩展到时空域,提出一种ST-LSTM网络。ZHANG等10提出了一种端到端的视图自适应模型,它不需要遵循人类预定义的标准重新定位骨骼,能自动调节观
17、察视点,优化识别的性能。为了解决梯度爆炸的问题,LI等11提出一种新的神经网络,称为IndRNN。基于CNN的方法是运用人工设计的变换规则将骨骼信息以伪图像的形式表示。KE等12用了所有时间特征向量之间的内在关系,提出一种MTLN的方法,提高行为识别的性能。KIM 等13提出一种 Res-TCN 方法用于3D人体行为分析。LI等14为了避免骨架数据平移与缩放的影响,提出一种平移尺寸不变的图像映射方法并结合多尺度深度CNN证明了该方法。LIU等15首次将3D CNN应用于骨架行为识别,并提出一种新的双流模型。然而,骨骼信息是以图形的形式表示,基于RNN和CNN的方法均无法充分的表示骨骼结构。因此
18、,YAN等16提出一种基于时空图卷积网络(STGCN)的方法,它打破了传统骨架的定义,更好地表述了关节之间的依赖关系,能将骨骼信息直接以图的形式表示,与之前的方法相比,展现出更好的性能。但是,STGCN同样存在缺陷,例如:它使用的骨架图是预定义的,仅仅能够代表人体的物理结构。不仅如此,GCN的结构是分层的,不同的层包含不同的语义信息,而 GCN 将语义信息固定在所有层,缺乏灵活性。为了解决 STGCN存在的问题,SHI等17提出一种自适应图卷积神经网络(2s-AGCN)用于基于骨架的动作识别,这再一次证明双流结构在行为识别中的有效性。BAI等18提出一种双流时空图卷积(2s-STGCN),解决
19、了图形的时间特征难以被充分利用的问题。2 方法2.1AlphaposeAlphapose是一种多人姿态估计框架19,该框架由对称空间变换网络(SSTN)、参数姿势非最大值抑制(NMS)和姿势引导建议生成器(PGPG)组成。换言之是将目标检测算法和SPPE单人姿态估计相结合以达到多人姿态估计的目的。这种框架的准确率将高度依赖目标检测框的检测质量,本文将通过实验对比选取适合的目标检测器对车站内的乘客进行目标检测。多人行为识别的框架如图 1所示。2.2行为识别2.2.1时空图卷积神经网络1)空间图的构建参考STGCN模式,给定2D或3D坐标形式的身体关节序列,构造一个时空图G=(VE),V=|vti
20、t=1Ti=1N是节点矩阵集合,T为帧数,N为关键点数。生成的人体骨骼关键点以2维坐标和置信度表示为(xyz),因此,骨骼关键点F(vti)将定义为特征向量,它由坐标向量和第t帧、第i个关键点的置信度组成。分2步构建骨骼序列图1多人行为识别框架Fig.1Multi-person action recognition framework4098第 11 期章宇翔,等:基于改进的多算法融合地铁站内乘客行为识别的时空图。第1步,帧与帧之间的边表示人体对应骨骼点的时序关系;第2步,在每一帧图中,按照人体的骨架连接关系构造空间图。E是边的集合,它 由 2 个 子 集 组 成。第 1 个 子 集 为ES=
21、|vtivtj(ij)H,它是每一帧图内骨骼点之间的连接集合,H表示人体骨骼点的集合。第 2 个子集EF=vtiv(t+l)i表示相同关键点的不同帧之间的连接。一个人体中有14个骨骼关键点,人体骨骼关键点的空间图构建如图2所示。2)时间图的构建时间图表示前后帧之间的连接,且由向量组成,每个向量中包含着长度信息和方向信息。将第t帧图像中的节点i定义为vti,第t+r帧图像中的节 点i定 义 为v(t+r)i。令vti=(x1y1c1),v(t+r)i=(x2y2c2),那么r帧图像内同一个节点i的向量将表示为vtiv(t+r)i=(x2-x1y2-y1min(c2c1)。图3为人体骨骼关键的时间
22、图,相邻帧之间的骨骼关键点用绿线连接。因此,一个骨骼关键点i的所有矢量将表示它随时间的轨迹。3)图卷积参考STGCN模式,节点vti上的时空图卷积被定义为:fout(vti)=vtjS(ti)1Ztifin(vtj)w(lin(vtj)(1)其中:f表示特征图,vtj空间图中第t帧的节点j,S(vti)表示vti的卷积区域,w表示加权函数,li表示映射函数,Zij表示正则化项Zij(vti)=|vtk|lti(vtk)=lti(vtj)|等于相应的子集基数。空间图卷积由特征B和图结构G定义。空间图卷绕的分层更新规则可应用于时间t的特征B,如式(2)所示:B(l+1)=(D-12GD-12B(l
23、)t(l)(2)其中:G=G+1,D是G的对角矩阵;()为激活函数,D-12GD-12B(l)t为一个空间平均特征的聚合。vtiv(t+r)i上的时间图卷积可以被定义为:fout(vti)=vtjS(vti)1Ztifin(vtj)w(lin(vtj)(3)fout(ai)=aiCifin(aj)w(l(aj)(4)ai=vtiv(t+r)i(5)aj=vtjv(t+r)j(6)其中:f表示特征图;v表示时间图中的向量;Ci表示ai的卷积区域,a表示为r帧图像中同一个节点的向量;w表示权重函数;l表示映射函数。4)策略由于身体骨架是空间定位,本文将采用空间构型划分的策略,将邻域集划分为3个子集
24、。第1个子集为节点本身,第2个为空间位置上比节点更靠近整个骨架重心的邻节点集合,第3个则为空间位置上比节点更远离重心的邻节点集合。lti(vtj)=012ifififdj=didjdi(7)其中:lti(vti)是vti单帧下的映射;di是训练集内所有帧中的关键点i到重心的平均距离;dj是节点vtj到重心的距离。2.2.2注意力机制注意力机制是实现网络自适应注意的一种方式,其本质就是定位到感兴趣的特征,抑制无用图2人体骨骼关键点的空间图Fig.2Spatial graph of the key points of the human skeleton图3人体骨骼关键点的时间图Fig.3Temp
25、oral graph of the key points of the human skeleton4099铁 道 科 学 与 工 程 学 报2023 年 11月特征。ECANet20是一种通道注意力机制,它被认为是 SENet21的改进版。它通过快速 1D卷积产生通道关注,其核大小可通过通道维度的非线性映射自适应确定,图4为ECANet的网络结构。首先在输入特征上进行全局平均池化(GAP),不需要进行维度缩减。再通过卷积核大小为k的1D卷积来捕获局部跨通道交互,k表示剧本跨通道交互的覆盖范围,该覆盖范围自适应确定并与通道大小成比例。最后,使用sigmoid函数生成每个通道的权重,将输入特征与
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 改进 算法 融合 地铁 站内 乘客 行为 识别
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。