基于HRNet的高效人体姿态估计算法.pdf
《基于HRNet的高效人体姿态估计算法.pdf》由会员分享,可在线阅读,更多相关《基于HRNet的高效人体姿态估计算法.pdf(8页珍藏版)》请在咨信网上搜索。
1、 :引用格式:安胜彪,贾鹏园,白宇基于的高效人体姿态估计算法无线电工程,():,():基于的高效人体姿态估计算法安胜彪,贾鹏园,白宇(河北科技大学 信息科学与工程学院,河北 石家庄)摘要:高分辨率网络(,)因并行连接高分辨率卷积且在并行卷积中重复进行多尺度融合来维持高分辨率表示,弥补了重复上采样和下采样过程造成的信息损耗等问题而受到广泛研究。但该网络只选取最高分辨率特征表示作为输出,忽略了其他分辨率分支的特征,且对遮挡等原因产生的困难点的检测精度较低。为了提升网络对关节点定位的精度,提出了一种改进的网络模型()。提出了一种结合注意力机制的特征融合方法,对各通道提取到的信息进行融合,提高了网络对
2、关键点的提取精度;为了解决困难点检测精度不高等问题,在特征提取网络后添加调优模块并设计多级监督机制进行监督;为了减少坐标编解码过程中的误差损失,使用一种新的解码策略。实验结果表明,模型在和两个数据集上的精度分别达到了 和,比基线网络分别提高了 和,验证了模型的有效性。关键词:人体姿态估计;注意力机制;坐标编解码;困难点中图分类号:文献标志码:开放科学(资源服务)标识码():文 章 编 号:(),(,):(),(),;,;,:;收稿日期:基金项目:国家自然科学基金();河北省自然科学基金():();()引言人体姿态估计是计算机视觉领域的一个重要问题,解决这个问题是正确理解图像和视频中人类行为重要
3、的一步。随着人体姿态估计方法的不断改进,其广泛应用在自动驾驶、视频监控、动作识别、和游戏行业等领域。目前的人体姿态算法可分为基于传统的方法和基于深度学习的方法。其中传统方法一般是基于图结构。最近基于深度神经网络的人体姿态估计取得了较大进展。按检测的不同,可分为单人姿态估计和多人姿态估计。信号与信息处理 年 无线电工程 第 卷 第 期 多人姿态估计又可分为自上而下和自底而上种估计方法。自底而上主要算法有、等。自上而下主要算法有、()等。本文提出并设计了()网络模型,该模型基于算法进行改进。首先在基础上添加一个带有极化自注意力(,)的双向特征金字塔模块(,),该模块通过给不同层赋予不同的权重来融合
4、多分支信息,提升了网络的检测精度;随后构建了一个调优模块,该模块以作为基础模块,增强了网络模型对局部信息的提取能力,提高了网络对困难点的检测精度;接着,针对简单点和困难点不平衡问题,构建多级监督机制;最后,为了减少热图生成和转换过程中的误差问题,采取一种新的编解码策略,提升了网络的整体性能。算法概述 网络是中国科学技术大学和亚洲微软研究院在年研究出的人体姿态模型。与现有的大多数方法 从低分辨率表征中恢复高分辨率表征不同,并行连接高分辨率到低分辨率的子网,使用重复的多尺度融合,在整个网络过程中始终维持高分辨率的表示,其整体结构如图所示。图结构 以输入分辨率 为例进行说明。网络由个组成。由操作和层
5、组成,操作由个步长为的普通卷积组成,层由个模块组成。主要对图片进行初步的信息提取,使分辨率降为输入图片的。在进入后续的个之前首先都要进行操作,该操作的目的是在原始分支的基础上,新增一个分辨率缩小倍、通道数增加倍的分支,以形成新。、分别由、个模块组成。每个模块在每个分辨率上由个组成,后续接着跨分辨率的单元。以为例,个分支分别通过个,接着进行分支之间的融合()。具体融合方法如图所示。对于上采样操作,先经过一个卷积核为卷积层,接着使用邻近插值的方法来对齐通道数和扩大分辨率。对于下采样操作,它使用的卷积进行倍下采样,使用个的卷积进行倍下采样。网络最终以最高分辨率的分支作为输出。图融合方法 基于改进的人
6、体姿态估计网络网络的结构如图所示。信号与信息处理 图结构 特征融合模块网络仅以最高分辨率分支作为最终的输出,即只保留了最高分辨率分支的特征,忽略了其他分支的特征,不利于网络精确地定位关键点的位置。为此提出带有注意力机制的特征融合模块。为了减少降低维度造成的损失,在特征融合模块降低通道数后加入注意力模块。结构如图所示。图结构 整体计算公式为:。()第二分支中间节点的计算公式为:()()。()第二分支输出节点的计算公式为:()()。()此处以使用第二层的输入输出为例。是下采样或上采样操作;为了避免数值的不稳定,设置 ,为卷积运算,是权重参数,用于区分特征融合过程中不同特征的重要程度,是第二层的输入
7、特征,是自上而下过程中生成的中间特征,是第二层的输出特征。其余三分支特征,均以相同方式构建。注意力机制由通道维度的自注意力分支和空间维度的自注意力分支组成。其原理是先在一个方向上对特征进行压缩,然后对损失的强度范围进行提升。具体可分为滤波和高动态范围(,)。其中,滤波的作用是使一个维度的特征(比如通道维度)完全坍塌,同时使正交方向的维度(比如空间维度)保持高分辨率。的原理是,首先在注意力模块中最小的上用函数来增加注意力的范围,然后再用函数进行动态的映射。注意力模块网络结构如图所示。信号与信息处理 年 无线电工程 第 卷 第 期 图注意力模块网络结构 由图可知,通道分支先使用卷积核为的卷积层将输
8、入特征转换为了和,其中的通道完全被压缩,的通道仍然保持一个较高水平,接着使用对的信息进行增强,然后将和进行矩阵乘法,并在后面接上卷积和()将通道上的维度升为。最后用函数使得所有参数都保持在 。空间分支原理和通道分支类似。重组形状为操作,可以将转换成指定的形状。调优模块随着网络训练时间的增加,网络训练过程中会倾向于简单点的训练而忽视由于遮挡等原因造成的困难点的训练,为此设计了一个调优模块。该模块由模块、上采样单元和模 块 组 成。其 中模 块 是 在基础上将两通路的相加操作用模块做了替换。上采样单元采用双线性上采样方法,使个分支变为相同的分辨率。为了生成高质量的热图,在调优模块后加入模块,该模块
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 HRNet 高效 人体 姿态 估计 算法
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。