基于多模态特征融合的行人穿越意图预测方法.pdf
《基于多模态特征融合的行人穿越意图预测方法.pdf》由会员分享,可在线阅读,更多相关《基于多模态特征融合的行人穿越意图预测方法.pdf(12页珍藏版)》请在咨信网上搜索。
1、2023 年(第 45 卷)第 10 期汽车工程Automotive Engineering2023(Vol.45 )No.10基于多模态特征融合的行人穿越意图预测方法*陈龙1,杨晨1,蔡英凤1,王海2,李祎承2(1.江苏大学汽车工程研究院,镇江212013;2.江苏大学汽车与交通工程学院,镇江212013)摘要 行人行为预测是城市环境智能汽车决策规划系统面临的主要挑战之一,提升行人穿越意图的预测准确率对于行车安全意义重大。针对现有方法过度依赖行人的边界框位置信息,且很少考虑交通场景中环境信息及交通对象间的交互关系等问题,本文提出一种基于多模态特征融合的行人过街意图预测方法。首先结合多种注意力
2、机制构建了一种新型全局场景上下文信息提取模块和局部场景时空特征提取模块来增强其提取车辆周边场景时空特征的能力,并依赖场景的语义解析结果来捕获行人与其周围环境之间的交互关系,解决了交通环境上下文信息与交通对象之间的交互信息应用不充分的问题。此外,本文设计了一种基于混合融合策略的多模态特征融合模块,根据不同信息源的复杂程度实现了对视觉特征和运动特征的联合推理,为行人穿越意图预测模块提供可靠信息。基于JAAD数据集的测试表明,所提出方法的预测Accuracy为0.84,较基线方法提升了10.5%,相比于现有的同类型模型,所提出方法的综合性能最佳,且具有更广泛的应用场景。关键词:自动驾驶汽车;行人意图
3、预测;多模态特征融合;注意力机制Pedestrian Crossing Intention Prediction Method Based on Multimodal Feature FusionChen Long1,Yang Chen1,Cai Yingfeng1,Wang Hai2&Li Yicheng21.Institute of Automotive Engineering,Jiangsu University,Zhenjiang212013;2.School of Automotive and Traffic Engineering,Jiangsu University,Zhenji
4、ang212013Abstract Pedestrian behavior prediction is one of the main challenges faced by urban environment intelligent vehicle decision planning system.It is of great significance to improve the prediction accuracy of pedestrian crossing intention for driving safety.In view of the problems that the e
5、xisting methods rely too much on the location information of pedestrian boundary box,and rarely consider the environmental information in traffic scenes and the interaction between traffic objects,a pedestrian crossing intention prediction method based on multi-modal feature fusion is proposed.In th
6、is paper,a new global scene context information extraction module and a local scene spatiotemporal feature extraction module are constructed by combining multiple attention mechanisms to enhance its ability to extract spatiotemporal features of the scene around the vehicle,and rely on the semantic a
7、nalysis results of the scene to capture the interaction between pedestrians and their surroundings,which solves the problem of insufficient application of the interactive information between the context information of the traffic environment and the traffic objects.In addition,a multimodal feature f
8、usion module based on hybrid fusion strategy is designed in this paper,which realizes the joint reasoning of visual features and motion features according to the complexity of different information sources,and provides reliable information for pedestrian crossing intention prediction module.The test
9、 based on JAAD dataset shows that the prediction accuracy of the proposed method is 0.84,which is 10.5%higher than that of the baseline method.Compared with existing models of the same type,the proposed method has doi:10.19562/j.chinasae.qcgc.2023.10.001*国家自然科学基金(52225212,U20A20333,52072160)资助。原稿收到日
10、期为 2023 年 02 月 13 日,修改稿收到日期为 2023 年 03 月 14 日。通信作者:蔡英凤,教授,博士,E-mail:。汽车工程2023 年(第 45 卷)第 10 期the best comprehensive performance and has a wider application scenario.Keywords:autonomous vehicles;pedestrian intention prediction;multimodal feature fusion;attention mechanism前言城市交通环境纷繁复杂,行人是道路交通参与者中最易暴露和
11、最脆弱的道路使用者之一,根据世界卫生组织报告统计结果,在全球每年死于交通事故的135万人中,超过一半的交通事故死亡者为弱势道路使用者,保护行人等弱势道路使用者的安全刻不容缓1。保护行人安全的关键在于避免人车冲突,如今随着先进驾驶辅助技术和自动驾驶技术的迅速发展,自动驾驶汽车可以借助视觉、激光雷达和毫米波雷达等车载传感器感知周围的道路环境、车辆和行人等目标,进而预测行人行为,让自动驾驶汽车可以提前进行规划和决策,从而避免发生人车冲突。在交通管理的背景下,人车冲突多发于人行横道,能够准确预测行人是否从车辆前方穿越,可以减少行人延误和交通拥堵,提高道路行车效率,从而帮助自动驾驶汽车找到安全和效率之间
12、的平衡2。目前解决行人穿越意图预测问题的主流方法主要有两种,一是基于行人未来轨迹预测的方法,二是基于人体姿态估计的方法。其中基于轨迹预测的方法相对更加普遍,行人轨迹预测领域的研究也已经相对成熟,许多基于人机交互模型预测行人轨迹的模型已经被提出。例如 Alahi 等3提出了 Social-LSTM,其将最大池化应用于邻近交通参与者,建模交通场景中的人人交互。Gupta等4提出了Social-GAN,其将 Social-LSTM 扩展为基于递归神经网络(RNN)的生成模型,将最大池化应用于所有交通参与者。Kosaraju等5提出了Social-BiGAT,其也是一种基于GAN 的方法,它引入图注意
13、力网络(GAT)建模场景中的人人交互,解除先前模型中的 RNN 依赖。Mohamed等6提出了Social-STGCNN,其使用图卷积网络代替先前模型的交互机制,使用TCN代替先前模型的循环递归架构,用时空图捕捉随时间变化的动态交互作用。考虑到视角和自身运动,Yagi 等7针对第一人称视频中的行人轨迹预测问题提出了一种新型行人轨迹预测模型,其采用一种多流卷积-反卷积架构的预测框架聚合相机自我运动、行人尺度和人体姿态信息预测行人的未来轨迹,该模型克服了相机视角的问题,但模型结构和性能还有较大的优化空间。近期的研究表明,行人穿越前的早期动作(如走动、挥手、注视等)与行人的穿越意图有关8。基于人体姿
14、态特征进行行人穿越意图预测开始受到研究者们的广泛关注。早期的方法多基于CNN 9和LSTM 10处理人体骨架特征进行动作识别和轨迹预测,例如Fang等11提出基于单目视觉的人体姿态估计方法来预测行人和骑自行车人的意图。Zhang 等12提出使用多层 LSTM 网络进行基于骨架的动作识别的几何特征,提供了一种与 RNN 模型增强垂直的简单通用空间建模方法,进一步提高了模型性能。最近的研究开始在人体姿态估计任务中引入图结构,例如Cadena 等13开发了二维行人图结构和行人图网络,以预测行人是否要过马路。Huynh 等14提出了GPRAR模型,该模型基于图卷积网络进行人体姿势重建和动作识别,模型包
15、括一个特征聚合器(FA),FA以通道方式聚合学习到的特征:人体姿势、动作、位置和相机运动,使用基于编码器-解码器的时间卷积神经网络来预测未来位置。综上所述,现有的运动轨迹预测方法,常常是借助先验的历史轨迹信息在未来的某个时刻对其进行轨迹预测,且没有充分考虑到自然驾驶环境下外界条件的不确定性干扰。此外,这些方法大多需要在俯视视角下的位置信息,这受限于要借助移动摄像机来获得场景的俯视图,且目前也缺乏俯视视角下带有行人位置信息和穿越意图标签的数据集。基于人体姿态估计的行人意图预测方法在特定的环境下表现出不错的性能,但在复杂的城市交通环境中,人体姿态关键点的检测精度会受到变化的相机视角、人车距离、遮挡
16、等因素的较大影响,且行人通常表现出受到各种背景元素影响的复杂行为,具有高度的可变性,仅通过行人的历史轨迹进行推断或是只通过人体姿态估计不足以在复杂的城市交通背景下实现行人穿越意图的准确预测。为继承上述方法的优点,同时避开其缺陷,近期的研究已经开始转向关注基于多流循环网络和多输入特征的行人意图预测方法,例如Aliakbarian等15使用多流LSTM对视觉特征、光流图像和车辆动力学进行编码,其输出被连接后生成用于意图预测的共享表示。自 JAAD16和 PIE17数据集被提出后,Fussi-Net 18、SF-GRU 19、PCPA 20等依赖多种输入 17802023(Vol.45)No.10陈
17、龙,等:基于多模态特征融合的行人穿越意图预测方法特征的行人穿越意图预测模型逐渐被提出,并在公开数据集上表现出不错的性能,这些模型的输入特征一般是检测到的行人边界框、姿势、外观,甚至是自我车辆信息。总的来说,尽管该领域在近几年的研究中取得了显著进展,但仍普遍存在诸如行人穿越意图预测精度不高、模型输入考虑不全面以及模型泛化性能不强等问题。究其原因,主要是现有方法在充分利用交通场景中的环境上下文信息以及各个交通对象之间的交互信息方面存在不足。此外,现有意图预测模型在探究多模态特征融合策略和模型优化方向的方法系统性存在局限。针对上述问题,本文中提出一种基于多模态特征融合的行人穿越意图预测方法,实现了在
18、复杂交通场景下对行人意图的准确预测。首先,针对全局场景上下文信息、局部场景上下文信息、自车车速等输入信息,该方法以输入目标行人的边界框信息为基准设计了正交试验,并通过试验分析筛选获得性能最佳的模型架构;其次,建立了一种新型全局场景上下文交互信息提取模块,该模块包含膨胀卷积、SE模块和交互注意力机制,依赖场景语义掩码对行人与交通元素间的交互关系进行建模;同时,构建了局部场景时空特征提取模块,该模块结合通道注意力、空间注意力和AUGRU,基于多重注意力机制提升了模型捕获复杂交通场景下局部交通场景的时空信息的能力;最后,设计了一种基于混合融合策略的多模态特征融合模块,根据不同信息源的复杂程度实现了对
19、视觉特征和运动特征的联合推理,为行人穿越意图预测模块提供可靠信息。在公开数据集JAAD上的验证结果显示,相比于现有的同类型模型,文中所提出的方法在行人穿越意图预测方面优于最先进的模型。综上所述,本文的主要贡献可以归纳为:(1)提出了一种基于多模态特征融合框架的行人穿越意图预测方法,设计正交试验法筛选获得最佳输入条件,通过混合融合方式对视觉特征和运动特征进行联合推理,进而实现对行人意图的准确预测。(2)建立了一种新型全局场景上下文交互信息模块,该模块基于多种注意力机制构建交互建模注意力关系网络处理全局场景的语义掩码,从而捕获行人与其周围环境之间的交互关系。1行人穿越意图预测模型构建1.1问题描述
20、本文将人行横道上的行人穿越意图预测定义为一个与多个模态信息输入源相关的优化问题,即P(At+ni|Cli,Pi,Li,Cg,S),它通过聚合的受试者的反应来测量并被重新调整到 0,1 的范围内,因此对于每个目标行人 i,给定从车辆前视图观察到的 m 个时步的视频帧序列和自车运动的相关信息,根据所设计的模型可以估计出目标行人t+n时刻在车辆前方穿越的概率。用于预测行人是否会穿越人行横道的信息源包括:由行人二维边界框表示的目标行人i的位置轨迹信息Bi=bt-mi,bt-m+1i,.,bti;目标行人i的姿态关键点信息Pi=pt-mi,pt-m+1i,.,pti;目标行人i周围的局部环境上下文信息C
21、li=ct-mli,ct-m+1li,.,ctli;全局环境上下文交互信息Cg=ct-m,ct-m+1,.,ct以及自我车辆的运动速度信息S=st-m,st-m+1,.,st,这里m为历史观测时间。1.2框架概览所提出的意图预测模型的整体架构图如图1所示。该模型架构主要由RNN模块、全局场景上下文交互信息提取模块、局部场景的时空特征提取模块、多模态特征融合模块以及行人穿越意图预测模块5个部分组成,下面对该模型中各输入特征的获取以及模型中的各个模块进行详细介绍。1.3输入信息获取1.3.1自车车速信息及行人边界框信息获取本文提出的模型主要在JAAD数据集上进行实验验证。行人的边界框位置坐标和自车
22、车速是JAAD数据集中注释的显式特征,因此自车车速和行人的二维边界框位置轨迹信息可以直接从数据集的标签信息中获取。自车车速可以从自车的车速传感器中直接获取,这里直接采用数据集中自车速度的地面实况标签,也即S=st-m,st-m+1,.,st。目标行人 i 的二维边界框位置轨迹信息表示为Bi=bt-mi,bt-m+1i,.,bti,其中bi由边界框的左上角和右 下 角 的 位 置 坐 标 表 示,也 即bt-mi=xt-mit,yt-mit,xt-mib,yt-mib。1.3.2行人周边局部场景图像信息获取本文所指的局部环境上下文信息包括目标行人及其周围局部环境的外观变化,由目标行人周围的局 部
23、 场 景 图 像 序 列 表 示,具 体 表 示 为Cli=ct-mli,ct-m+1li,.,ctli。在给定的时间步长,通过裁剪放大的二维边界框来提取每个行人的局部环境图像序列,然后调整缩放框的尺寸,使其高度与宽度相匹配。1781汽车工程2023 年(第 45 卷)第 10 期1.3.3行人姿态关键点信息获取行人的姿态关键点信息可以表示目标行人每一帧的姿态,姿态可以反映目标行人详细的运动状态(如行走、站立、蹲下以及行人的凝视方向等),表示为Pi=pt-mi,pt-m+1i,.,pti。由于JAAD数据集自带的数据标签中不包含行人的姿态关键点,在正交试验中采用在COCO数据集21上预训练的H
24、RNet 22提取JAAD数据集中的行人姿态信息(即由18个人体关键点坐标连接而成的36维特征向量pi),具体可以表示为pt-mi=xt-mi1,yt-mi1,xt-mi2,yt-mi2,.,xt-mi18,yt-mi18。1.3.4全局场景上下文信息获取全局场景上下文提供了解释目标行人与其他交通参与者以及道路环境之间或其他交通参与者之间的多重交互的视觉特征,文中将其表示为Cg=ct-m,ct-m+1,.,ct,对于输入的交通场景图像序列,本文采用在 Cityscapes 23上预训练的 deeplabV3 24来提取输入场景图像中各交通参与者与静态交通环境的语义地图。1.4RNN模块所提出的
25、模型涉及到的输入信息均为序列特征,结合注意力机制的RNN模块可以自动为序列特征分配权重,使更重要的特征分配到更大的权重,从而突出特征变化,提高模型处理序列特征的准确性。本文在GRU模块中引入注意力机制构成了AUGRU模块25,其在对目标行人的边界框位置序列提取特征时,可以通过概率分配的方式自动提高模型对重要的行人边界框位置坐标的关注程度,突出行人横向位移以及人车距离变化等关键信息,在不额外增加计算和储存成本的前提下改善行人过街意图预测的准确度。和LSTM网络10一样,GRU 26也是RNN的一种变体,两者都是为解决简单RNN所面临的长期依赖问题而被提出来的,但GRU相比于LSTM网络参数量更少
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 多模态 特征 融合 行人 穿越 意图 预测 方法
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。