基于快速傅里叶变换的乐器音色特征识别算法研究.pdf
《基于快速傅里叶变换的乐器音色特征识别算法研究.pdf》由会员分享,可在线阅读,更多相关《基于快速傅里叶变换的乐器音色特征识别算法研究.pdf(6页珍藏版)》请在咨信网上搜索。
1、2023 年 8 月第 19 卷 第 3 期系统仿真技术System Simulation TechnologyAug.,2023Vol.19,No.3基于快速傅里叶变换的乐器音色特征识别算法研究赵逸凡1,佟庆月1,卢艺1*,戴卫2,廖仲楠2(1.上海交通大学 电子信息与电气工程学院自动化系,上海 200240;2.上海戴氏琴弦制作社,上海 201100)摘要:本研究主要以传统乐器为研究对象,探究了乐器的音色本质。在频域中利用快速傅里叶变换提出了乐音泛音列提取的2种方法,即最大倍频和法和多倍频法,并将二者在不同场景下进行了比较。发现多倍频法具有较好的鲁棒性。同时,考虑到乐音在时间维度上也蕴含一
2、定的信息,进而针对性地使用语谱图以弥补传统频谱中一些信息丢失的问题,并根据提取到的泛音列支持了乐器音色特征识别,在中国传统乐器古琴中进行了算法测试,结果表明本研究所构建的方法可推广到其他中西乐器,未来还可以拓宽到信号特征辨识、材料探伤等领域。关键词:语谱图;音色特征;泛音列提取;快速傅里叶变换Research on Musical Instrument Timbre Feature Identification Algorithm Based on Fast Fourier TransformZHAO Yifan1,TONG Qingyue1,LU Yi1*,DAI Wei2,LIAO Zho
3、ngnan2(1.Automation Department,School of Electronic Information and Electrical Engineering,Shanghai Jiao Tong University,Shanghai 200240,China;2.Shanghai Dai s String Company,Shanghai 201100,China)Abstract:The timbral nature of musical instruments is explored,mainly using traditional musical instrum
4、ents as the research object.Two methods of musical overtone column extraction are proposed in the frequency domain using the fast Fourier transform,and the two are explored in comparison in different scenarios.The multifrequency method is found to have better robustness.At the same time,considering
5、that musical tones also contain certain information in the time dimension,and then the targeted use of the speech spectrogram to compensate for some information loss in the traditional spectrum,and based on the extracted overtone columns to support the timbre feature recognition of musical instrumen
6、ts,the algorithm was tested on the traditional Chinese instrument Guqin,showing that the method constructed in this study can be extended to other Chinese and Western musical instruments,and can also be broadened to signal feature recognition,material detection and other fields in the future,materia
7、l flaw detection,etc.Key words:dynamic spectrum;timbre characteristics;harmonic series extraction;fast Fourier transform音乐是全人类的共同语言,是人类几千年文化发展的成果。因此,对音乐的研究具有重要的价值,其中乐器音色的分析提取是必不可缺的一部分。乐器有管乐器、弦乐器、打击乐器、键盘乐器等之分,其中弦乐器指的是所有的弓弦和弹拨弦乐器,如胡琴、提琴、古筝、古琴、吉他等1。本研究主要针对弦乐器进行音色通信作者:卢艺,E-mail:DOI:10.16812/31-1945.2023
8、.03.015赵逸凡,等:基于快速傅里叶变换的乐器音色特征识别算法研究分析。弦乐器音色的分类研究是探索弦乐器音色本质的基础。由于弦乐器发声机理的差别、音色衡量的不确定性以及人类对人耳听觉感知过程认识的有限性,使得弦乐器音色的研究处于一个瓶颈阶段,对弦乐器音色特征的分析尚存在很大的缺陷2。中国古代的音乐文献中,用定性的古琴音色品质用语“琴之九德”来描述乐器的音色特征,亟待将其转化为量化准则来指导音色分析和音质评估3。因此,寻找一组能够准确反映弦乐器音色的特征成为乐音信号处理领域迫切需要解决的问题,而振动学、声学领域的相关工具能够为乐器音色特征分析提供理论支持。相较于听觉的感知,在相同时间内视觉所
9、能接收到的信息更为丰富,所能处理的特征更为准确4。因此,人们在意识到人类对人耳听觉感知过程的局限性后,决定将声音的信息用频谱展现出来,让工作者在较短的时间内把握到乐器音色本质。音 色 特 征 的 研 究 最 早 可 以 追 溯 到 1954 年,Helmholtz5当时提出谐波结构理论,指出音色感知与频谱形状有关。近年来,人们主要从时域、频域和倒频域3个方面对弦乐器单音的音色特征进行研究。时域特征反映了声音的动态变化。因此,声音的时域包络也反映了音色。弦乐器单音色时域包络一般分为 4 段,包括起奏(Attack)、衰减(Decay)、持续(Sustain)、消逝(Release),每段都对音色
10、有影响,有的乐器拥有衰减阶段,而有的乐器只有起奏和持续阶段等。但音色主要由频谱特征决定。对音色的描述有谐波谱质心6(Harmonic spectral centroid)、谐波谱偏差(Harmonic spectral deviation)、谐波谱伸展(Harmonic spectral spread)、谐 波 谱 波 动(Harmonic spectral variation)、谱质心(Spectral centroid)、谱滚降、谐波能量比、谐度、偶次谐波含量、奇次谐波含量和谐波的三色激励参数等7。为了综合利用时域和频域特征,本研究采用基于快速傅里叶变换的方法8,适当地引入时间维度,将传统
11、频谱转化为语谱图,去提取音色的相关特征,以供后续研究。1 乐器发音泛音列提取 1.1泛音列乐器的发音具有一定的规律9,所有音列中波长最长者称为基本波长(基波),而基波长短决定了乐器弹奏此音符的音高。几乎所有乐器除了可发出基波音以外亦会伴随着较短波的声音,称为泛音。在有明显音高的乐器中,弦或空气管之间会有因反射而造成波长相同、行进方向相反的波,这些彼此互相干涉而产生波长不同的谐波,在音乐上的名词即为泛音。而泛音列的波长分别为弦长或是空气管长的1/1、1/2、1/3,对应了基波频率的1倍、2倍、3倍。乐器声音所展现出来的泛音列,包含了该乐器声音的所有音色特征。因此,提取出乐器音色每一帧的泛音列就显
12、得尤为重要。而当前并没有一个十分完善的泛音列提取方法,本研究利用快速傅里叶变换在频域中提出了2种关于泛音列提取的机理化模型。1.2提取方法由于泛音列各个频率之间存在一定的倍数关系,因此对于一段语音信号,如果想要提取出泛音列,最重要的是找到乐音的基频。对于乐音基频及泛音列的查找,本研究提出了最大倍频和法和多倍频法。1.2.1最大倍频和法考虑到乐音信号能量集中分布在各个倍频处,本研究提出一种用于基频自动识别的最大倍频和法。假设基频为频谱图中最大值所对应频率的 1/1、1/2、1/3、1/20,计算预选的基频值所对应的120倍倍频之和,在寻找倍频时设置误差区间为10 Hz。给定基频和频谱后定位倍频的
13、算法流程如下所示:得到前20个倍频之后,计算其幅值和,从20个幅值中选择拥有最大倍频和的频率作为基频。为了避免低频干扰成分影响识别结果,本研究考虑对识别得到的基频幅值加以限制。由于乐音基频凸峰通常都可以在频谱图上明显看出,故此处选择设定一个基频阈值,当识别得到的基频幅值小于该阈值时,Algorithm 1倍频定位Input:频域信号signal,对应频率freqs,基频base_freqOutput:倍频集fft_freqs1.2.3.4.5.6.7.8.9.fft_freqs=for m=1 20do/寻找前20倍频freq=base_freq*i/第i倍频预选值index=freqfreq
14、s 1-freqs 0 ran=10freqs 1-freqs 0 /误差范围10 Hzindex=index+argmax(signalindex-ran:index+ran)ran/求误差范围内的最大值索引fft_freqs.append(freqsindex)end forreturnfft_freqs/输出结果221系统仿真技术第 19 卷 第 3 期便认为该基频是低频干扰造成的错误识别。1.2.2多倍频法多倍频法共分为两步,第一步为数据处理,第二步为基频计算。1.2.2.1 数据处理(1)凸峰提取其算法如下所示:经过上述过程后,所有的凸峰将会被提取出来,非凸峰处则为零。(2)凸峰筛选
15、将提取出来的凸峰幅值最大的10%为阈值,小于该阈值的凸峰同样置零,大于该阈值的凸峰如果个数小于10,则进行记录,如果个数大于10,则取幅值前十的凸峰进行记录,其余置零。1.2.2.2 基频计算 基频计算有以下2种算法可供选择,经过测试2种算法性能基本一致。(1)算法一求相邻频率之差(包括零)的最小值,记为min。筛选基频并判定。先假设基频为min,不符合判定规则之后依次取min/2,min/3作为基频再进行判定,直到符合判定规则。判定规则:基频能够在一定的误差范围内(例如:20 Hz之内)小于等于min且尽可能多地包含10个峰值。(2)算法二将已知峰值取出,其余频率处幅值置零。取最大峰值处频率
16、进行最大倍频和法计算。1.3对比分析以某张古琴七弦散音(定弦1=F)为例,该音频的频谱图如图1所示。当采用最大倍频和法计算时,其结果如图 2所示。Algorithm 2凸峰识别Input:频域信号signal,对应频率freqsOutput:处理后频域信号new_signal1.2.3.4.5.6.7.8.9.10.11.12.13.14.15.16.17.18.19.20.21.22.23.24.25.26.27.28.29.30.31.new_signal=signaln=50freqs 1-freqs 0 /误差范围50Hz内数据点数sum=signal:n/用于加快均值的计算速度mul
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 快速 傅里叶变换 乐器 音色 特征 识别 算法 研究
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。