基于动态视觉运动特征的脉冲神经网络识别方法.pdf
《基于动态视觉运动特征的脉冲神经网络识别方法.pdf》由会员分享,可在线阅读,更多相关《基于动态视觉运动特征的脉冲神经网络识别方法.pdf(8页珍藏版)》请在咨信网上搜索。
1、基于动态视觉运动特征的脉冲神经网络识别方法董峻妃姜润皓燕锐唐华锦*(四川大学计算机学院成都610065)(浙江大学计算机科学与技术学院杭州310058)(浙江工业大学计算机科学与技术学院杭州310014)摘要:针对现有脉冲神经网络(SNN)对动态视觉事件流识别精度低与实时性差等问题,该文提出一种基于动态视觉运动特征的脉冲神经网络识别方法。首先利用基于事件的运动历史信息表示与梯度方向计算提取事件流中的动态运动特征;然后引入时空池化操作来消除事件在时间和空间上的冗余,保留显著的运动特征;最后,将特征事件流输入脉冲神经网络进行学习与识别。在基准的动态视觉数据集上的实验结果表明,动态视觉运动特征可显著
2、提升SNN对于事件流的识别精度与计算速度。关键词:动态视觉感知;事件相机;脉冲神经网络;动作识别;运动特征提取中图分类号:TP391.4文献标识码:A文章编号:1009-5896(2023)08-2731-08DOI:10.11999/JEIT221478Spiking Neural Network Recognition Method Based onDynamic Visual Motion FeaturesDONGJunfeiJIANGRunhaoYANRuiTANGHuajin(College of Computer Science,Sichuan University,Chengdu
3、 610065,China)(College of Computer Science and Technology,Zhejiang University,Hangzhou 310058,China)(College of Computer Science and Technology,Zhejiang University of Technology,Hangzhou 310014,China)Abstract:Consideringtheshortcomingsofthelowrecognitionaccuracyandpoorreal-timeperformanceofexistingS
4、pikingNeuralNetworks(SNN)fordynamicvisualeventstreams,aSNNrecognitionmethodbasedondynamicvisualmotionfeaturesisproposedinthispaper.First,thedynamicmotionfeaturesintheeventstreamareextractedusingtheevent-basedmotionhistoryinformationrepresentationandgradientdirectioncalculation.Then,thespatiotemporal
5、poolingoperationisintroducedtoeliminatetheredundancyofeventsinthetemporalandspatialdomain,furtherretainingthesignificantmotionfeatures.Finally,thefeatureeventstreamsarefedintotheSNNforlearningandrecognition.Experimentsconductedonbenchmarkdynamicvisualdatasetsshowthatdynamicvisualmotionfeaturescansig
6、nificantlyimprovetherecognitionaccuracyandcomputationalspeedofSNNforeventstreams.Key words:Dynamicvisualperception;Eventcamera;SpikingNeuralNetwork(SNN);Actionrecognition;Motionfeatureextraction1 引 言相比固定时间间隔采样场景光强的传统相机,动态视觉传感器(又称事件相机)以异步、稀疏的时空事件流表征场景的光强相对变化1,不仅去除了静态冗余信息,而且其高动态范围和高时间分辨率特性天然避免了运动模糊问题,
7、能够更高效地捕捉场景动态信息。然而,这种异步稀疏的事件表示形式导致现有的计算机视觉算法无法直接适用2,3。相反,生物神经系统启发的脉冲神经网络(SpikingNeuralNetworks,SNN)的异步脉冲计算范式自然兼容AER数据,不仅具备强大的时空信息处理能力,而且有望在资源受限设备上实现低延迟、低功耗的边缘计算46。这些优异属性吸引了众多研究者将SNN应用于事件相机的相关任务中。SNN与事件相机结合的工作目前主要关注于物体识别任务。一种主流的SNN事件流识别模型模拟收稿日期:2022-11-25;改回日期:2023-05-02;网络出版:2023-05-19*通信作者:唐华锦基金项目:国
8、家重点研发计划(2020AAA0105900)FoundationItem:TheNationalKeyResearchandDevelopmentProgramofChina(2020AAA0105900)第45卷第8期电子与信息学报Vol.45No.82023年8月JournalofElectronics&InformationTechnologyAug.2023了视觉皮层腹侧流的前馈信息处理过程,实现了事件驱动的物体形状特征提取与脉冲编码,如HFirst模型7和类皮层模型8。近年来,大量研究工作从噪声鲁棒9、多尺度特征融合10,脉冲学习算法11等多种角度对该模型进行优化,进一步提升了事件
9、流识别性能。另一种主流方法利用代理梯度技术端到端训练深度SNN,如时空反向传播(Spatio-Tem-poralBackPropagation,STBP)12、脉冲层误差时间重分配(SpikeLayerErrorReassignmentintime,SLAYER)13、深度连续局部学习(DEepCOntinuousLocalLEarning,DECOLLE)14。尽管这些模型取得了不错的物体识别性能,但对于更具时空动态变化的动作识别任务通常面临性能损失,主要原因可能是缺乏动作过程中关键运动特征的有效表示。受视觉皮层背侧流对于运动信息的提取与处理过程启发,Liu等人15提出一种利用事件运动信息的
10、层次SNN模型,通过引入一种具有突触延迟的运动敏感神经元来实现光流估计,进而提取运动方向以及速度特征,实现基于事件的动作识别。然而,该模型利用突触延迟来提取事件的运动特征带来额外的计算延迟,这不利于实时动作识别。同时速度信息对于动作识别任务通常是非必要的16,17。为解决上述问题,本文提出一种全新的动态视觉运动特征表示方法,通过基于事件的运动历史信息表示与运动梯度方向计算,可以高效提取动作事件流中的动态运动信息与不同运动过程的时空动态差异。基于提出的特征表达方法,本文设计了一个SNN事件流识别模型,实现动作事件流的快速、准确识别,在3个基准的动作事件流数据集上提升了识别精度,并在真实动态场景下
11、进行测试,证明了模型的鲁棒性。2 基于动态视觉运动特征的SNN识别方法2.1 整体网络架构如图1所示,基于动态视觉运动特征的SNN识别方法包含运动感知、时空池化和SNN分类3个阶段的处理。运动感知层对异步传入的动作事件流进行运动特征表示,首先引入具有速度不变性的事件索引平面(IndexSurface,IS)16来记录像素点的运动历史信息。然后基于该运动历史信息计算传入事件十字邻域内的运动时空关联,最后利用该时空关联值得到事件的梯度方向,该梯度方向蕴含了事件的运动特征并被嵌入到事件表示中;时空池化层对编码事件流进行时间与空间上的池化操作,得到更稀疏的特征事件流;SNN分类层通过脉冲学习算法对特征
12、编码后的事件流进行监督训练,实现动作事件流的识别。2.2 动态视觉的事件流表示由于事件相机中的每个像素独立地感知环境中光强的相对变化,一旦变化量超过预设的阈值,则输出事件。事件流通常可以表示为ei=xi,yi,ti,pi,i 1,2,.,n(1)(xi,yi)tipiieipi 1,1xi 1,2,.,Nyi 1,2,.,MN Mn其中,分别表示第 个事件的地址,触发时间和极性(,“1”表示光强减弱的负极性,“1”表示光强增强的正极性)。,其中是事件相机的分辨率。是事件流中事件的总数。2.3 运动感知ISISN MeiIS为挖掘离散事件间蕴含的运动信息,同时保留事件的异步驱动特性,本文首先采用
13、了事件索引平面()16来记录动作的历史运动信息。为消除正负极性的干扰,将两种极性的事件分成两个通道进行处理,分别用一个与输入分辨率()大小相同的矩阵记录对应像素位置上最新传入事件的索引值,对于事件 的矩阵更新可表示为图1基于动态视觉运动特征的SNN识别方法流程图2732电子与信息学报第45卷IS(xi,yi,pi)=i(2)ISN M 2IS因此,为的矩阵,每个位置储存的事件索引值表示了事件流中对应像素位置最近的运动情况。最后运动产生的事件越接近当前事件,对应位置上存储的索引值越大,进而可以有效表示动作的最近历史运动情况。(xi,yi)r为进一步刻画事件的运动信息,本文选取事件索引平面上以当前
14、事件的位置为中心,为半径的十字邻域上的4个值来计算局部邻域内事件的时空关联Xright=exp(IS(xi,yi,pi)IS(xi+r,yi,pi)(3)Xleft=exp(IS(xi,yi,pi)IS(xi r,yi,pi)(4)Yup=exp(IS(xi,yi,pi)IS(xi,yi+r,pi)(5)Ydown=exp(IS(xi,yi,pi)IS(xi,yi r,pi)(6)rU(ei,r)=Xright,Xleft,Yup,Ydown其中,是时间衰减参数,用以消除久远历史事件的影响,避免运动模糊。本文中设置 为2。描述了当前事件与局部邻域内的历史事件之间的时空关联性,用这种关联性计算当
15、前事件的运动梯度方向。ei=atan2(Y,X)+(7)X=Xright Xleft(8)Y=Yup Ydown(9)atan2(Y,X)(,其中,是反正切函数,返回一个的方位角atan2(y,x)=arctan(yx),x 0arctan(yx)+,y 0,x 0arctan(yx),y 0,x 0,x=02,y 0,x=0移除,y=0,x=0(10)X=Y=0eiei(ei,ei)特别地,当时,认为 是个孤立点,则把 移除。经过运动感知层后,随后这些特征事件将被传入时空池化层。2.4 时空池化4 4为消除事件在时间和空间上的冗余,保留显著的运动特征,引入时空池化层9。在经过运动感知层后,具
16、有相同梯度方向特征的事件被分配到一个特征图上。每个特征图被划分为多个的非重叠ms邻域,该邻域内的事件以每5为时间窗,输出时间窗内的第1个事件。动态视觉运动特征算法伪代码如算法1所示。2.5 脉冲神经网络识别算法SNN对运动感知阶段得到的特征事件流进行学习与识别。SNN采用单层全连接结构,其神经元使用了泄露整合发放神经元(LeakyIntegrate-and-Fire,LIF)模型,突触连接权重由事件驱动的Tem-potron学习规则18训练,该学习规则驱动目标神经元发放单脉冲来进行分类。2.5.1 LIF神经元模型LIF神经元动力学的数学表达为V(t)=iwitjitK(t tji)+Vres
17、t(11)witjiijV(t)tVrestK其中,和 是第 个输入神经元的突触权重和第个输入时间。是 时刻神经元的膜电压,是神经元的静息电位。是规范化的突触后电压核函数。2.5.2 Tempotron学习规则P+P该学习规则旨在训练LIF神经元在接收目标输入的时候发放一个脉冲(称为状态),否则保持沉默(称为状态)。一旦神经元的发放状态错误,则触发Tempotron学习规则。误差反向传播算法被用来调整突触权重,损失函数定义为膜电压的最大值和阈值之间的距离L=Vthr Vtmax,P+错误Vtmax Vthr,P错误(12)VtmaxtmaxP+Pwi=Lwi其中,是神经元的最大膜电压,下角标是
18、最大膜电压时刻,错误指应该发放而没有发放,错误指不该发放而发放了。根据梯度下降算法可知,即算法1 动态视觉运动特征算法(ei,ei)1:输出:r,IS(x,y,p)02:输入:,初始化ei3:for每个到来的事件doIS(xi,yi,pi)iIS4:/更新U(ei,r)5:计算十字邻域,式(3)式(6)XY6:利用式(8)、式(9)计算和ei7:计算当前事件的运动梯度方向,式(7)式(10)(xi,yi)(xi/4,yi/4)8:/时空池化ei9:if不在不应期内then(ei,ei)10:输出11:end if12:end for第8期董峻妃等:基于动态视觉运动特征的脉冲神经网络识别方法27
19、33wi=titmaxK(tmax ti),P+错误 titmaxK(tmax ti),P错误0,其他(13)mVmsmsms其中,是学习率,在本文中设置为0.1。此外,静息电位设置为0,将阈值设置为1,膜时间常数和突触电流衰减时间常数,分别设置为20和5,不应期设置为5,突触权重初始化为以均值为0,标准差为0.1的正态分布。3 实验结果与分析3.1 数据集本文在3个人体手势/动作事件流识别的基准数据集上评估所提出算法的性能,包括:DVS128Gesture数据集19、ActionRecognition数据集20和DailyAction-DVS数据集15。DVS128Gesture数据集包含了
20、3种照明条件下DVS128事件相机记录的29个受试者的11种手势动作。ActionRecognition数据集包含了3种拍摄距离下DAVIS事件相机记录的15个受试者的10种动作。DailyAction-DVS数据集包含了2种拍摄位置和2种光照条件下DVS128事件相机记录的15个受试者的12种动作。具体的数据集信息与划分见表1。3.2 基于事件的动作识别算法比较表2给出了在3个数据集上与其他主流方法的识别结果对比。3.2.1 DVS128 Gesture数据集本文提出的模型在DVS128Gesture数据集上取得了94.7%的识别精度,优于传统基于HFirst特征18和结合光流特征15的单层
21、SNN识别方法,识别精度分别提升了24.6%和2.0%。这表明本文提出的运动梯度方向特征表示方法可以更有效地提取事件流中潜在的时空运动信息,并提供一种具备运动特征可分性的脉冲编码表示,有利于后端的动作识别。基于HFirst特征的单层SNN方法的性能较差,这揭示了运动特征表示对于动作手势识别任务的重要性,即动作的运动过程相比其轮廓形状更有助于动作的区分。尽管只使用了单层SNN进行监督训练,本文模型的识别精度同样优于需要较大的网络规模与迭代训练次数的深度SNN方法,比STBP12和SLAYER13方法分别提升了1.3%和1.1%。这表明本文设计的运动梯度方向特征更加简单高效,降低了对SNN学习容量
22、与识别能力的要求,更有利于在资源受限的边缘设备上实现低延迟、低功耗的人类动作识别。3.2.2 DailyAction-DVS数据集DailyAction-DVS数据集中的动作类别更多且同类样本间的录制环境差异较大,这对模型动作识别的鲁棒性提出了更高的要求。本文提出的模型在该数据集上也取得了最高的平均识别精度(96.1%),相比传统基于HFirst特征18和结合光流特征15的单层SNN识别方法分别提升了19.2%和5.8%。此外,本文方法还高于最优的深度SNN中的DECOLLE方法14,获得4.4%的精度提升。这表明本文方法对环境变化具有鲁棒性,具备推广到真实场景的潜力。3.2.3 Action
23、 Recognition数据集ActionRecognition数据集具有更大空间分辨率,但总样本数量不到300个,这对模型的学习与泛化能力提出了更高的要求。尽管如此,本文提出的模表 1 数据集信息与划分情况数据集类别数分辨率训练集测试集DVS128Gesture111281281 151191ActionRecognition1034626025041DailyAction-DVS121281281 235205表 2 基于事件的动作识别算法比较(%)方法结构DVS128GestureActionRecognitionDailyAction-DVSSLAYER12深度SNN(8层)93.6S
24、TBP13深度SNN(6层)93.4DECOLLE14深度SNN(6层)95.579.691.7SCRNN21脉冲卷积循环网络(5层)92.0文献22基于卷积和储层计算的SNN65.0文献9HFirst特征+单层SNN61.555.068.3SPA18HFirst特征+单层SNN70.176.9文献15光流特征+单层SNN92.778.190.3本文运动特征+单层SNN94.779.596.1注:加粗字体表示各列最优结果;“”表示此处数据数据为空2734电子与信息学报第45卷型依旧取得了79.5%识别精度,比同样使用单层SNN的文献9和文献15方法分别提升了24.5%和1.4%,并且识别精度接
25、近于最优的深度SNN方法DECOLLE14。这表明本文方法对于复杂动作识别问题具有更强大的扩展性,并且识别性能不依赖大量训练样本。3.3 特征表示方法比较分析3.3.1 特征编码效果分析首先,可视化几种典型的特征表示方法的编码结果,如图2所示,展示了一根围绕中心顺时针旋转管道所产生的事件流片段和几种动态视觉特征表示方法的编码效果。原始事件流(图2(a)中的事件点只表示极性,即光强变弱(红点)和变强(蓝点),未能体现出管道上、下半部运动方向的差异(白色箭头)。HFirst特征表示方法7关注了管道自身的边缘信息而忽视运动信息,因此将管道转动过程所产生的事件都编码为同一种特征(图2(b),黄色表示)
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 动态 视觉 运动 特征 脉冲 神经网络 识别 方法
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。