基于改进VGG深度学习网络的道路交通车型音频识别方法.pdf
《基于改进VGG深度学习网络的道路交通车型音频识别方法.pdf》由会员分享,可在线阅读,更多相关《基于改进VGG深度学习网络的道路交通车型音频识别方法.pdf(7页珍藏版)》请在咨信网上搜索。
1、2023 年第 3 期No.3,2023广东技术师范大学学报Journal of Guangdong Polytechnic Normal University基于改进VGG深度学习网络的道路交通车型音频识别方法李锋1,叶霖2,徐伟1,林朝阳2(1.广东技术师范大学 汽车与交通工程学院,广东 广州 510665;2.广东技术师范大学 机电学院,广东 广州 510665)摘 要:道路交通流车辆类型识别是城市交通管理的重要基础工作.本文提出了一种基于车辆音频信号和改进 VGG 深度学习网络的道路交通车型识别方法.首先运用梅尔倒谱系数对车辆音频信号进行特征提取,然后结合留一交叉验证的方法,输入改进的
2、 VGG_11 网络模型进行训练,最后对训练结果进行检验,从而构建车型分类识别模型.实验结果显示:相比较于原模型,改进的 VGG_11 网络模型训练时长有较大的缩短,准确率也有一定程度的提升.车型识别准确率为 96.46%,其中对大型车的识别准确率可达到 94.35%,对小型车的识别准确率可达到 97.62%.以上结果表明所提方法具有较高的准确率,适用于道路交通流车型识别.关键词:车型识别;VGG 网络;梅尔倒谱系数;音频信号;深度学习中图分类号:TN912.3;TP183 文献标识码:A 文章编号:2096-7764(2023)03-0017-070 引言道路交通流检测是城市交通管理的重要基
3、础工作,车型分类识别作为主要检测内容之一,有助于交通流成分的研判与管理.目前主流的交通流车型分类识别方法是基于视频图像处理的方法,这类方法在光照条件良好的白天环境可达到较高的识别率.然而,基于视频图像的交通流车型识别方法容易受天气、光照强度等因素的干扰,视频检测中存在大量的冗余信息和错误数据,在占据大量的存储空间的同时也降低了数据分析的有效性和稳定性.为此,本文基于道路交通流中的车辆音频数据,探索采用深度学习实现对车辆类型识别的方法.由于基于车辆音频信号的车型识别具有成本低、信息处理运算速度快以及不易受外界因素干扰等优点1,国内外已开展了富有成效的研究.Kandpal 等2结合车辆声信号的快速
4、傅里叶变换(FFT)和时域波形并利用神经网络作为分类器进行车型识别.Borkar3-4分别使用梅尔频率倒谱系数(MFCC)和线性预测编码 LPC 提取声音信号的短期频谱包络特征,并利用 SVM 分类器对声音信号进行分类,实现了对车辆交通密度状态的估计.赵宏旭,杨文帅5将车辆声信号的短时能量 ENERGY 与梅尔倒谱系数进行特征融合并利用 SVM 分类器进行车型分类.马侠霖等6以车辆声信号的 1/3 倍频程作为特征数据并利用 SVM 分类器进行车型分类.综上所述,采用深度学习算法的车辆音频数据的分类识别研究仍不多见.本文根据车辆原始音频数据,探索基于 MFCC 特征提取结合改进的VGG深度学习网
5、络进行车型识别分类的方法.通过对车辆的音频文件进行数据预处理,用梅尔倒谱系数 MFCC 对声信号进行特征提取,然后输入改进的 VGG-11 卷积神经网络进行深度特征提取,最后通过 Softmax 分类器对音频进行分类(图 1).收稿日期:2022-12-04基金项目:博士点建设单位科研能力提升项目(22GPNUZDJS45);广州市科技计划项目(202102020314).作者简介:李 锋,博士,广东技术师范大学副教授.叶 霖,广东技术师范大学 2020 级硕士研究生.徐 伟,广东技术师范大学教授.林朝阳,广东技术师范大学 2020 级硕士研究生.李锋,等:基于改进VGG深度学习网络的道路交通
6、车型音频识别方法第 3 期1 车辆音频数据采集与预处理1.1 音频数据采集车辆音频数据采集方法:选用 Newsmy V19型录音笔以及 SONY FDR-AX45A 小型摄像机为车辆音频数据采集工具.运用录音笔收集车辆经过时的声音作为音频文件保存,保存的格式为wav,采样率为 44.1kHz;同时运用小型摄像机同步的进行车辆录制,与录音笔收集的音频数据进行一对一的匹配,为后期车型分类提供依据.运用深度学习网络进行训练时,数据集本身的质量及样本量会对结果产生一定影响.首先,在保证所采集音频数据的质量方面:选取广州市白云区环镇北路以及环镇西路为测试路段进行车辆音频数据的采集,采集时间为白天,天气晴
7、朗,路况良好,道路为沥青混凝土路面,其两边为低矮树木,周围无建筑物,不受其他明显噪声源的影响.为保证车辆经过时的声音能被最大 限 度 地 捕 捉 到,所 采 集 的 车 辆 速 度 均 达 到80km/h 及以上.所采集的音频数据样本仅限于单一车道,避免车辆并列行驶、超车以及其他复杂路况.其次,在音频数据的样本量方面:共采集了 411 辆有效数据样本,其中小型车 263 辆,大型车 148 辆.样本量相对较少,后文通过对其进行多次随机排序形成多组训练集和测试集,并结合留一交叉验证的方法,充分利用样本信息,提高鲁棒性,使预测结果稳定且真实.1.2 音频信号 MFCC 特征提取采 用 梅 尔 倒
8、谱 系 数(MFCC)对 车 辆 的 音 频信号进行特征提取.MFCC 是在语音识别方面典型的一种特征提取方法.MFCC 特征提取过程如图 2 所示.(1)预加重、分帧、加窗.对音频信号的高频部分进行加重,加强其高频部分与低频部分相连的信息表达,有利于提高音频信号的特征信息,预加重系统函数如公式(1)所示.音频信号属于时变非稳态的信号,分帧目的就是将较短的单帧作为稳态信号进行处理,短时间内认为音频信号的特征处于不变状态.由于分帧操作容易造成音频信号特征的丢失,可在帧与帧之间可以引入窗函数防止信息丢失,并使分帧后的帧与帧之间的过渡变得平稳.本文采用汉明窗,如式(2)所示.S(n)=S(n)-aS
9、(n-1)(1)其中,a为预加重系数;S(n)为n时刻的声音采样值,S(n)为预加重后的结果.w(n)=0.54-0.46cos 2/(n-1)0 n N-10 n=其他值(2)其中,w(n)为汉明窗口函数;N为 FFT 点数.输入音频信号x(n)经过预加重、分帧、加窗预处理后被转化为:g(n)=x(n)w(n)(3)其中,g(n)代表加窗后的时域信号;x(n)表示分帧后信号;w(n)为汉明窗口函数.(2)快速傅里叶变换(FFT).在时域上难以观察音频信号的特性,因此运用快速傅里叶变换将音频的时域信号转换为频域上的能量进行分析,不同的能量分布有着不同的声音特性.音频的时域信号g(n)通过快速傅
10、里叶变换为频域信号G(k)公式为:G(k)=n=0N-1g(n)e-j2Nnk,0 k N(4)其中,N为 FFT 点数;G(k)表示频域信号;g(n)代表时域信号;n代表帧数;k代表采样频率.计算能量谱.将频域信号G(k)转换为复数形式,然后进行取模平方运算,得到能量谱,其计算公式为:E(k)=1N|G(k)|2(5)其中,E(k)表示能量谱;G(k)表示频域信号;N为FFT 点数.(3)梅 尔 滤 波 器.将 上 一 步 所 得 的 能 量 谱通过梅尔滤波器得到梅尔频谱.梅尔滤波器的频率响应Hm(k)如公式(6)所示,其中m=0M-1Hm(k)=1:图 1车型音频识别算法框架示意图图 2M
11、FCC 特征提取过程Hm(k)=0 ,k f(m-1)2(k-f(m-1)(f(m+1)-f(m-1)(f(m)-f(m-1),f(m-1)k f(m)2(f(m+1)-k)(f(m+1)-f(m-1)(f(m)-f(m-1),f(m)k f(m-1)0 ,k f(m+1)(6)其中,Hm(k)代表所述梅尔滤波器的频率响应;m表示梅尔滤波器的数量;k代表采样频率;f()代表第m个滤波器的中心频率.(4)取对数.对音频信号的每帧梅尔频谱取对数得到对数梅尔频谱,该频谱包含了音频信号的时间、频率以及灰度图幅度信息内容.每一帧的能量谱E(k)与之对应频率响应Hm(k)相乘叠加最后取对数得到对应的对数能
12、量S(m),公式为:S(m)=ln(k=0N-1E(k)Hm(k)(7)其 中,S(m)代 表 对 数 梅 尔 频 谱;E(k)代 表 能 量谱;Hm(k)代表所述梅尔滤波器的频率响应;k代表采样频率;m为 FFT 点数.(5)离散余弦变换(DCT).将上一步所得的对 数 梅 尔 频 谱 特 征 进 行 离 散 余 弦 变 换 得 到MFCC 特征7.具体变换过程如公式(8)所示,其中c(m)是指第 m 维的音频信号特征:c(m)=2mn=1MS(m)cos(m(n-0.5)M),1 m L(8)其中,c(m)代表离散余弦变换后得到的目标数据;L为阶数;m为滤波器组数;m=1,2,3,4,.M
13、;S(m)代表对数梅尔频谱.本文对采集的音频数据首先进行裁剪,去掉音频中静音部分,并使每段音频的长度保持一致都为 2.04s;然后提取每段音频的 MFCC 特征,帧 长 为 2048,帧 移 为 256,阶 数 为 40,得 到 40*128 的 MFCC 特征矩阵.1.3 留一交叉验证K 折交叉验证是指将训练集分割成 k 个互斥的子集,将(k-1)个子集作为训练集,剩下的 1个子集为测试集,这样就有 k 组训练集和测试集;迭代训练一次可获得 k 个训练集的准确率,取其平均值作为测试集准确率.当 k=n 时(n 为训练集的样本数),称为留一交叉验证.留一交叉验证能最大化地利用样本信息,并在样本
14、数量不多的情况下,使网络模型训练得到的准确率尽可能接近真实值,提高模型的鲁棒性.由于实验采集的音频数据样本较少,在将数据样本划分为训练集和测试集的时候,模型对训练集的数据极为敏感,如果仅选择一组训练集和测试集,可能导致模型训练得到的准确率偏离真实值,泛化能力不强.因此将数据样本随机划分为多组训练集和测试集,并对每组训练集训练的时候引入留一交叉验证8-9,测试集准确率结果取平均值,以提高模型的泛化能力.本文在粗分车型识别时,对音频数据进行 6 次随机排序形成六组,在训练时对训练集再进行留一交叉验证.分组示意图(见图 3).2 改进的 VGG-11 卷积神经网络模型2.1 VGG-11 网络结构V
15、GG10是由牛津大学的视觉几何组(Visual Geometry Group)在 2014 年的 Image Net 大赛中提出的一个深度卷积神经网络.VGG 网络全部采 用 3*3 的 卷 积 核 以 及 2*2 的 池 化 层,构 建 了1119 层的卷积神经网络,通过加深网络结构提升其性能.VGG-11 总共有 11 层,由 8 个卷积层、3 个全连 接 层 组 成 的.首 先 经 过 64 个 卷 积 核 进 行 卷积,后接最大池化层降维;再经过 128 个卷积核卷积,采用最大池化层降维;再经过 256 个卷积核卷积两次,后接最大池化层降维;再经过 512个卷积核卷积两次后连接最大池化
16、层降维,并重复两次;最后经过 3 个全连接层实现类别分类.所用卷积核大小为 3x3,步长为 1,最大池化图 3随机分组交叉验证示意图18第 3 期李锋,等:基于改进VGG深度学习网络的道路交通车型音频识别方法Hm(k)=0 ,k f(m-1)2(k-f(m-1)(f(m+1)-f(m-1)(f(m)-f(m-1),f(m-1)k f(m)2(f(m+1)-k)(f(m+1)-f(m-1)(f(m)-f(m-1),f(m)k f(m-1)0 ,k f(m+1)(6)其中,Hm(k)代表所述梅尔滤波器的频率响应;m表示梅尔滤波器的数量;k代表采样频率;f()代表第m个滤波器的中心频率.(4)取对数
17、.对音频信号的每帧梅尔频谱取对数得到对数梅尔频谱,该频谱包含了音频信号的时间、频率以及灰度图幅度信息内容.每一帧的能量谱E(k)与之对应频率响应Hm(k)相乘叠加最后取对数得到对应的对数能量S(m),公式为:S(m)=ln(k=0N-1E(k)Hm(k)(7)其 中,S(m)代 表 对 数 梅 尔 频 谱;E(k)代 表 能 量谱;Hm(k)代表所述梅尔滤波器的频率响应;k代表采样频率;m为 FFT 点数.(5)离散余弦变换(DCT).将上一步所得的对 数 梅 尔 频 谱 特 征 进 行 离 散 余 弦 变 换 得 到MFCC 特征7.具体变换过程如公式(8)所示,其中c(m)是指第 m 维的
18、音频信号特征:c(m)=2mn=1MS(m)cos(m(n-0.5)M),1 m L(8)其中,c(m)代表离散余弦变换后得到的目标数据;L为阶数;m为滤波器组数;m=1,2,3,4,.M;S(m)代表对数梅尔频谱.本文对采集的音频数据首先进行裁剪,去掉音频中静音部分,并使每段音频的长度保持一致都为 2.04s;然后提取每段音频的 MFCC 特征,帧 长 为 2048,帧 移 为 256,阶 数 为 40,得 到 40*128 的 MFCC 特征矩阵.1.3 留一交叉验证K 折交叉验证是指将训练集分割成 k 个互斥的子集,将(k-1)个子集作为训练集,剩下的 1个子集为测试集,这样就有 k 组
19、训练集和测试集;迭代训练一次可获得 k 个训练集的准确率,取其平均值作为测试集准确率.当 k=n 时(n 为训练集的样本数),称为留一交叉验证.留一交叉验证能最大化地利用样本信息,并在样本数量不多的情况下,使网络模型训练得到的准确率尽可能接近真实值,提高模型的鲁棒性.由于实验采集的音频数据样本较少,在将数据样本划分为训练集和测试集的时候,模型对训练集的数据极为敏感,如果仅选择一组训练集和测试集,可能导致模型训练得到的准确率偏离真实值,泛化能力不强.因此将数据样本随机划分为多组训练集和测试集,并对每组训练集训练的时候引入留一交叉验证8-9,测试集准确率结果取平均值,以提高模型的泛化能力.本文在粗
20、分车型识别时,对音频数据进行 6 次随机排序形成六组,在训练时对训练集再进行留一交叉验证.分组示意图(见图 3).2 改进的 VGG-11 卷积神经网络模型2.1 VGG-11 网络结构VGG10是由牛津大学的视觉几何组(Visual Geometry Group)在 2014 年的 Image Net 大赛中提出的一个深度卷积神经网络.VGG 网络全部采 用 3*3 的 卷 积 核 以 及 2*2 的 池 化 层,构 建 了1119 层的卷积神经网络,通过加深网络结构提升其性能.VGG-11 总共有 11 层,由 8 个卷积层、3 个全连 接 层 组 成 的.首 先 经 过 64 个 卷 积
21、 核 进 行 卷积,后接最大池化层降维;再经过 128 个卷积核卷积,采用最大池化层降维;再经过 256 个卷积核卷积两次,后接最大池化层降维;再经过 512个卷积核卷积两次后连接最大池化层降维,并重复两次;最后经过 3 个全连接层实现类别分类.所用卷积核大小为 3x3,步长为 1,最大池化图 3随机分组交叉验证示意图19李锋,等:基于改进VGG深度学习网络的道路交通车型音频识别方法第 3 期层步长为 1,窗口为 2x2.其网络结构(见图 4).2.2 改进的 VGG-11 网络结构为适应车辆的音频识别,本文在 VGG-11 网络模型的基础上进行了改进,其网络结构如图 5所示.改进的网络结构由
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 改进 VGG 深度 学习 网络 道路交通 车型 音频 识别 方法
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。