基于状态精细化长短期记忆和...成对抗网络用于行人轨迹预测_吴家皋.pdf
《基于状态精细化长短期记忆和...成对抗网络用于行人轨迹预测_吴家皋.pdf》由会员分享,可在线阅读,更多相关《基于状态精细化长短期记忆和...成对抗网络用于行人轨迹预测_吴家皋.pdf(6页珍藏版)》请在咨信网上搜索。
1、2023-05-10计算机应用,Journal of Computer Applications2023,43(5):1565-1570ISSN 1001-9081CODEN JYIIDUhttp:/基于状态精细化长短期记忆和注意力机制的社交生成对抗网络用于行人轨迹预测吴家皋1,2*,章仕稳1,2,蒋宇栋1,2,刘林峰1,2(1.南京邮电大学 计算机学院,南京 210023;2.江苏省大数据安全与智能处理重点实验室(南京邮电大学),南京 210023)(通信作者电子邮箱)摘要:针对当前行人轨迹预测研究仅考虑影响行人交互因素的问题,基于状态精细化长短期记忆(SR-LSTM)和注意力机制提出一种用
2、于行人轨迹预测的社交生成对抗网络(SRA-SIGAN)模型,利用生成对抗网络(GAN)学习获得目标行人的运动规律。首先,使用SR-LSTM作为位置编码器提取运动意图信息;其次,通过设置速度注意力机制合理地为同一场景中的行人分配影响力,以更好地处理行人的交互;最后,由解码器生成预测的未来轨迹。在多个公开数据集上的测试实验结果表明,SRA-SIGAN模型的总体表现良好。特别是在Zara1数据集上,与SR-LSTM模型相比,SRA-SIGAN模型的平均位移误差(ADE)和最终位移误差(FDE)分别减小了20.0%和10.5%;与社交生成对抗网络(SIGAN)模型相比,SRA-SIGAN的ADE和FD
3、E分别下降了31.7%和24.4%。关键词:生成对抗网络;长短期记忆网络;行人轨迹预测;注意力机制;行人交互中图分类号:TP18;TP391.4 文献标志码:ASocial-interaction GAN for pedestrian trajectory prediction based on state-refinement long short-term memory and attention mechanismWU Jiagao1,2*,ZHANG Shiwen1,2,JIANG Yudong1,2,LIU Linfeng1,2(1.School of Computer Scienc
4、e,Nanjing University of Posts and Telecommunications,Nanjing Jiangsu 210023,China;2.Jiangsu Key Laboratory of Big Data Security and Intelligent Processing(Nanjing University of Posts and Telecommunications),Nanjing Jiangsu 210023,China)Abstract:In order to solve the problem of most current research
5、work only considering the factors affecting pedestrian interaction,based on State-Refinement Long Short-Term Memory(SR-LSTM)and attention mechanism,a Social-Interaction Generative Adversarial Network(SIGAN)for pedestrian trajectory prediction was proposed,namely SRA-SIGAN,where GAN was utilized to l
6、earn movement patterns of target pedestrians.Firstly,SR-LSTM was used as a location encoder to extract the information of motion intention.Secondly,the influence of pedestrians in the same scene was reasonably assigned by setting the velocity attention mechanism,thereby handling the pedestrian inter
7、action better.Finally,the predicted future trajectory was generated by the decoder.Experimental results on several public datasets show that the performance of SRA-SIGAN model is good on the whole.Specifically on the Zara1 dataset,compared with SR-LSTM model,the Average Displacement Error(ADE)and Fi
8、nal Displacement Error(FDE)of SRA-SIGAN were reduced by 20.0%and 10.5%,respectively;compared with the SIGAN model,the ADE and FDE of SRA-SIGAN were decreased by 31.7%and 24.4%,respectively.Key words:Generative Adversarial Network(GAN);Long Short-Term Memory(LSTM)network;pedestrian trajectory predict
9、ion;attention mechanism;pedestrian interaction0 引言 近年来,基于深度学习方法的行人轨迹预测问题在计算机视觉和人工智能领域重新引起人们的兴趣。轨迹的预测1-4对于社交机器人导航5、自动驾驶6和智能跟踪7-8具有很高的价值。行人轨迹预测指基于行人的历史轨迹生成行人未来的位置,然而,由于行人复杂的运动行为,尤其是在拥挤的场景中,会增加行人轨迹预测的困难。基于循环神经网络(Recurrent Neural Network,RNN)的方法和基于生成对抗网络(Generative Adversarial Network,GAN)的方法是轨迹预测中最常用的两
10、种方法。在基于RNN 的方法中,Alahi 等9提出了社会长短期记忆(Social Long Short-Term Memory,SLSTM)网络模型,采用 LSTM 编码器-解码器的结构,再通过社会池化模块得到交互信息,最后通过 LSTM 解码器输出预测的轨迹。该模型的社会池化模块以每一个目标行人为中心建立池化邻域,然后将邻域中行文章编号:1001-9081(2023)05-1565-06DOI:10.11772/j.issn.1001-9081.2022040602收稿日期:2022-04-29;修回日期:2022-07-10;录用日期:2022-07-11。基金项目:国家自然科学基金资助
11、项目(61872191)。作者简介:吴家皋(1969),男,江苏苏州人,副教授,博士,CCF会员,主要研究方向:计算机网络、人工智能;章仕稳(1996),男,江苏南京人,硕士研究生,主要研究方向:轨迹预测、深度学习;蒋宇栋(1999),男,江苏盐城人,硕士研究生,主要研究方向:轨迹预测、深度学习;刘林峰(1981),男,江苏丹阳人,教授,博士,主要研究方向:计算机网络、移动计算。第 43 卷计算机应用人对应的LSTM隐状态进行“和池化”;但该池化方式并未将不同的行人区别对待,影响了池化效果。Lee等10提出了深度学习逆最优RNN编码器-解码器框架,通过条件变分自编码器获得一组不同的假设未来预测
12、样本,并通过 RNN 评分模块对预测样本进行排序和细化,可以作出更好的长期预测。Bartoli等11提出了环境感知的 LSTM模型,通过对环境中可能影响行人运动的环境物体进行位置标记,运用池化层对行人交互和行人环境交互进行建模,引入了环境物体对行人运动的影响。Xu 等12提出了人群交互深度神经网络(Crowd Interaction Deep Neural Network,CIDNN)模型,使用双 层 LSTM 和 三 层 多 层 感 知 机(Multi-Layer Perceptron,MLP),并引入“空间亲和力”以及“全局和池化”来处理不同行人对目标行人的不同影响。但是空间亲和力没有包含
13、速度信息,不足以描述行人间的相互作用。此外,全局池化方式会将距离很远的行人也考虑在内,这必然导致模型性能的下降。在上述工作中,研究人员通常倾向于最小化与未来真实坐标的L2距离,以预测目标行人唯一的未来轨迹。然而,预测人类行为(包括行人轨迹)是一个多模态问题,因为给定部分历史轨迹,可能有多条未来轨迹都适合该行人。这时,使用基于 GAN13的方法可以预测多个可接受的轨迹,并从中选择“最佳”轨迹作为预测结果。Gupta等14提出了社会 GAN(Social GAN,SGAN)模型,由一个基于 LSTM的编码器-解码器生成器、一个池化模块和一个基于 LSTM的鉴别器组成。SGAN在训练时能一次生成多个
14、预测结果,从而使预测轨迹具有多样性。SGAN的池化模块采用“最大池化”操作来处理行人交互,但全局池化方式同样会导致过多的无效交互。Amirian等15在SLSTM和SGAN的基础上提出了Social ways模型,并引入了注意力机制使模型自主分配对交互信息的关注,进一步提升了模型效果。本研究组在之前的工作中提出了社交生成对抗网络(Social-Interaction GAN,SIGAN)模型16,采用一种社会交互模块获取场景中相邻行人与目标行人之间的位置和运动信息。然而,在SIGAN的位置编码器中,LSTM的隐藏态信息并不是最新的状态,特别是当行人在短时间内改变了运动状态时,LSTM只能获得目
15、标运动前的状态信息,而不能获取邻居行人的运动意 图。而 Zhang 等17提 出 的 状 态 精 细 化 LSTM(State-Refinement LSTM,SR-LSTM)在 LSTM 之上增加了一层状态精细化模块(States Refinement Module,SRM),能让目标行人共享编码的邻居行人隐状态,从而获取精细化LSTM细胞状态和隐状态。采用 SR-LSTM 作为位置编码器时,可以更好地提取场景中行人的运动意图信息,尤其在短时间的预测中,这种“意图”就显得极为重要。但是,SR-LSTM对行人运动意图中的速度考虑不足,需要通过设置速度注意力机制对同一场景中行人进行影响力分配。综
16、上所述,本文提出了一种基于SR-LSTM和注意力机制的 社 交 对 抗 生 成 网 络(SR-LSTM and Attention mechanism based Social-Interaction GAN,SRA-SIGAN)用于行人轨迹预测。本文的主要工作包括:1)提出基于SRA-SIGAN的行人轨迹预测模型,使用SR-LSTM作为位置编码器,以有效提取行人运动意图,使社会交互模块能更准确地表达目标和相邻行人之间的位置和运动信息。2)针对SR-LSTM在行人运动速度方面考虑不足的问题,基 于 自 注 意 力 机 制 设 计 了 速 度 注 意 力 模 块(Velocity Attenti
17、on Module,VAM),对同一场景中行人进行影响力权重分配,使模型能充分利用行人间的交互信息,提升预测精度。3)在多个公开的真实世界数据集上对所提模型进行了大量实验,结果表明 SRA-SIGAN 模型具有较高的行人轨迹预测准确性。1 本文模型 1.1问题定义对于行人的轨迹预测问题,可以进行如下定义:在一个场景中,给定场景中n个行人过去的tobs个坐标,用于预测每个行人接下来的tpred个坐标。本文将行人称为代理。本文的目标是观测同一个场景中所有代理的一段历史轨迹来预测他 们 的 一 段 未 来 轨 迹。假 设 一 个 场 景 中 有 n 个 代 理 P1,P2,Pn,设 这 些 代 理
18、的 历 史 轨 迹 分 别 为 X1,X2,Xn,相应的预测轨迹分别为Y?1,Y?2,Y?n。对于代理Pi来说,历史轨迹为Xi=X1i,X2i,Xtobsi,其中Pi在t时刻的坐标定义为Xti=(xti,yti),且t 1,tobs;同理,代理Pi在t时刻预测的坐标为Y?ti=(x?tobs+ti,y?tobs+ti),由于要预测多个位置坐标,因此Pi的预测轨迹为Y?i=Y?1i,Y?2i,Y?tpredi。将Pi在t时刻的预测坐标的真实值定义为:Yti=Xtobs+ti,则Pi的预测轨迹的真实值为Yi=Xtobs+1i,Xtobs+2i,Xtobs+tpredi。由于同一个代理的轨迹中提取的
19、相邻坐标的前后时间间隔相同,所以Pi在t时刻的速度定义为Vti=(xti-xt-1i,yti-yt-1i)。1.2SRA-SIGAN总体结构如图 1 所示,SRA-SIGAN 模型是由生成器 G(Generator)和鉴别器D(Discriminator)构成的GAN。生成器将同一个场景中的全部代理的历史轨迹作为输入,然后输出所有代理的未来轨迹作为预测值。其中,生成器由编码器(Encoder)、解码 器(Decoder)、社 会 交 互 模 块(Social Interaction Module,SIM)和速度注意力模块(VAM)组成。编码器又由两个子编码器组成:位置编码器以观测到的轨迹 t
20、时刻坐标Xti为输入,采用SR-LSTM编码输出得到Uti;运动编码器以坐标Xti和速度Vti为输入,采用三层的MLP进行编码输出得到dti。SIM将所有Uti和dti作为输入,输出融合的社会交互张量Mti。VAM 以所有代理 t 时刻的速度Vt为输入,通过自注意力机制,输出各代理的速度注意力向量Ati。在此基础上,解码器生成预测的未来轨迹,而鉴别器D将其分类为真或假。1.3生成器1.3.1Encoder编码器对于位置编码器,根据式(1)可以得到第i个行人对应的LSTM的输出Gti:Gti=LSTM(Gt-1i,Oti;Wencoder);Oti=fc1(Xti;WO)(1)其中:fc1为全连
21、接层,表示一个带有线性整流单元(Rectified Linear Unit,ReLU)的嵌入函数;WO代表嵌入函数的权重;Wencoder代表LSTM编码器的权重;LSTM在所有的代理之间是共享的,也就是说Wencoder在编码阶段是共享的,Gti R32是被编码的位置向量。接着,令Gt=Gt1,Gt2,Gtn,则SR-LSTM输出获得的意图信息Ut(Ut Rn 32)为:Ut=SR(Gt,Xt;WSR)(2)其中:Xt表示所有行人在 t时刻的观测坐标;WSR为 SR 模块对应的权重。矩阵Ut的第i行表示第i个人所获取其他行人运动意图所表示的向量,记为Uti(Uti R32)。如前所述,SR-
22、LSTM将LSTM输出的隐藏态和细胞状态以及当前时刻的1566第 5 期吴家皋等:基于状态精细化长短期记忆和注意力机制的社交生成对抗网络用于行人轨迹预测所有行人的坐标作为SR模块的输入。使用SR-LSTM除了能提取出他们之前的运动信息之外,还能提取出他们当前的意图信息,这样可以在后面处理交互问题时获取更多有用的信息。对于运动编码器,使用一个三层的多层感知机(MLP)来编码观测到的每个代理在t时刻的坐标Xti和速度Vti,通过式(3)将Xti和Vti升维成一个高维的向量dti(dti R64):dti=MLP(Xti,Vti;W1,W2,W3)(3)其中:W1、W2、W3表示带有 ReLU 非线
23、性激活函数的三层MLP的权重。对于每个代理来说,分别将它们的历史轨迹和当前时刻的位置与速度输入到位置编码器和运动编码器中以获得高维向量,以便将其作为后续SIM的输入。1.3.2社会交互模块社会交互模块(SIM)将编码的位置和速度矢量作为输入,计算每个目标代理受到的邻居的代理的交互影响,它由两部分组成:时空亲和力部分和局部池化部分。对于时空亲和力部分,一种简单的方法是线性组合所有代理的位置和运动特征用于位移预测。因此,本文采用时空亲和力衡量每个邻居代理对目标代理影响的大小。对于任何代理Pj,将其在时间步为t时刻与目标代理Pi的时空亲和力定义为ati,j,即:ati,j=exp()dti,dtj
24、jexp()dti,dtj(4)其中:dti,dti是对dti与dtj求内积操作。采用Softmax方式对内积进行归一化,得到时空亲和力度量。式(4)同时考虑了空间和速度因素,如果时空亲和力更大,则目标可能会受到更大社会交互的影响。因此,结合时空亲和力度量,目标代理Pi受到邻居代理Pj的交互影响bti,j的定义如下:bti,j=ati,j Utj(5)考虑到目标代理的移动只会受到邻居代理的影响,本文采用局部池化方案,并将这些因素结合到行人轨迹预测中。该方案为每个目标代理设置了一个以自己位置为中心的基于正方形网格的邻域,并且设从中心到邻域边的垂直距离为k,所以正方形邻域是一个2k 2k的网格。然
25、后,可以得到其他代理对目标代理Pi的交互影响,如下所示:Mti=j Ni(k)bti,j(6)其中:Mti R32;Ni(k)表示在这个2k 2k的网格大小内目标代理的邻居代理的集合。可以看出,k值是局部池化中的一个非常重要的参数,它表示所有目标代理受到影响的范围。1.3.3速度注意力模块由于SR-LSTM仅仅只是关注代理之间的相互坐标,缺少速度的注意力信息,因此,本文采用注意力机制获取代理之间基于速度的注意力。将所有代理 P1,P2,Pn在 t时刻的速度Vt=Vt1,Vt2,Vtn(Vt Rn 2)输入VAM中。图 2 是 VAM 的 示 意 图,该 模 块 根 据 自 注 意 力(self
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 状态 精细 长短 记忆 对抗 网络 用于 行人 轨迹 预测 吴家皋
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。