针对口音识别中冗余特征及长尾效应的有效方法.pdf
《针对口音识别中冗余特征及长尾效应的有效方法.pdf》由会员分享,可在线阅读,更多相关《针对口音识别中冗余特征及长尾效应的有效方法.pdf(7页珍藏版)》请在咨信网上搜索。
1、第 43 卷 第 3 期Vol.43,No.32024 年 5 月Journal of Applied AcousticsMay,2024 研究报告 针对口音识别中冗余特征及长尾效应的有效方法杨 壮1颜永红2黄志华1(1 新疆大学计算机科学与技术学院信号检测与处理实验室乌鲁木齐830000)(2 中国科学院声学研究所语言声学与内容理解重点实验室北京100190)摘要:口音识别是指在同一语种下识别不同的区域口音的过程。为了提高口音识别的准确率,采用了多种方法,取得了明显的效果。首先,为了解决声学特征中关键特征权重不突出的问题,引入了有效的注意力机制,并对多种注意力机制进行了比较和分析。通过模型自
2、适应学习通道和空间维度的不同权重,提高了口音识别的性能。在Common Voice 英语口音数据集上的实验结果表明,引入CBAM注意力模块是有效的,识别准确率相对提升了12.7%,精确度相对提升了17.9%,F1值相对提升了6.98%。之后,提出了一种树形分类方法来缓解数据集中的长尾效应,识别准确率最多相对提升了5.2%。受域对抗训练的启发,尝试通过对抗学习方法剔除口音特征中的冗余信息,使得准确率最多相对提升了3.4%,召回率最多相对提升了16.9%。关键词:口音识别;注意力机制;树形分类;对抗学习中图法分类号:TN912.3文献标识码:A文章编号:1000-310X(2024)03-0498
3、-07DOI:10.11684/j.issn.1000-310X.2024.03.004An effective method for redundant features and long tail effect inaccent recognitionYANG Zhuang1YAN Yonghong2HUANG Zhihua1(1 School of Computer Science and Technology,Key Laboratory of Signal Detection and Processing in Xinjiang,Urumqi 830000,China)(2 Key
4、Laboratory of Speech Acoustics Content Understanding,Institute of Acoustics,Chinese Academy of Sciences,Beijing100190,China)Abstract:Accent detection refers to the process of identifying different regional accents within the samelanguage class.To enhance the accuracy of accent detection,we employed
5、several methods and then the obviouseffect was obtained.Firstly,in order to solve the problem that accent detection features do not highlight theweight of key features,the attention mechanism is introduced,and a variety of attention mechanisms arecompared and analyzed.The performance of accent detec
6、tion is improved through the model adaptive learningchannel and different weights of spatial dimensions.The experiment results on the English accent datasetsnamed Common Voice show that the introduction of CBAM attention module is effective,with a relativeimprovement of 12.7%in accuracy and 17.9%in
7、precision and 6.98%in F1-score parameters.After that,weproposed a Tree-Form based classification method to alleviate the long-tail effect,and the accuracy parameteris improved by 5.2%at most.Inspired by domain adversarial training(DAT),we attempted to eliminateredundant information of accent via adv
8、ersarial training.The relative improvement of accuracy parameter isup to 3.4%,and the relative improvement of recall parameter is up to 16.9%.Keywords:Accent detection;Attention mechanism;Tree-Form classification;Adversarial learning2022-12-01收稿;2023-03-28定稿新疆维吾尔自治区自然科学基金面上项目(2022D01C59),科技部重点研发项目(2
9、018YFC0823402)作者简介:杨壮(1997),男,山东菏泽人,硕士研究生,研究方向:信号与信息处理。通信作者 E-mail:第43卷 第3期杨壮等:针对口音识别中冗余特征及长尾效应的有效方法4990 引言口音问题是自动语声识别面临的一个严峻挑战。说话人相关的变化包括性别、年龄、口音、健康或疾病以及一些生理变化,这些都是导致语声识别系统性能下降的原因。性别和口音是对语声识别系统效率影响最大的两个特征。口音是人类语言的主要可变因素之一,这对自动语声识别系统的鲁棒性提出了很大的挑战。当自动语声识别系统用一种特定的口音进行训练,然后用另一种口音进行识别时,效率会大大降低。在多口音语声识别系统
10、中,口音识别通常被设置为前端,其任务是在给定的声学信号下,在特定语种中识别不同的区域口音。口音识别可以被视为语种识别(Language identifica-tion,LID)的一个特例15,但更具挑战性的是,口音之间的相似性比LID更难区分。口音识别类似于LID和说话人识别,它们都将可变长度的语声序列分类到话语级后验,以获得口音、说话人或语种标识符。口音识别系统中使用的大多数技术通常来自于LID 和说话人识别69系统。正因为如此,LID和说话人识别方向新技术的发展和成熟也不断激励着口音的研究。口音识别作为一种新兴的语声人工智能方向,越来越受到一线研究人员和业界的关注。然而,目前的识别准确率并
11、不理想。到目前为止,关于口音识别已经有相当多的研究1015。为了将口音识别应用到阿拉伯语中,Al-varez等16提出了Intonation Pattern Embeddings特征提取方法,取得了显著的改进。他们提出了一种新的数据处理方法,首先将原始数据提取为in-tonation patterns,然后从中提取语谱特征。通过该过程将数据集精简到最基本的内容,丢弃了与预测任务无关的信息,可以看作是通过算法手段降低了数据的复杂度,增加了样本量。Chowdhury等17进行了一项实验,观察在口音识别模型中网络的每一层编码了哪些信息。具体方法是将每层网络的输出转而输入到不同的识别模型中,然后根据识
12、别准确率判断该层网络编码的是哪种类型的信息。随着深度学习技术的兴起与发展,目前的口音识别性能已经达到可用的水平,然而相较于LID和说话人识别这些热门研究领域,口音识别的准确率仍然亟待提升。具体来说,当前的口音识别技术主要基于深度学习算法,采用了一些在其他领域卓有成效的特征提取和模型训练的方法,以提高识别的准确率。在一些实验环境下,目前的口音识别技术已经能够达到比较高的准确率,但是在真实应用场景中,仍然存在一些挑战,如背景噪声、说话者口音变化、语声质量等因素都可能对口音识别的准确性产生影响1417。带口音的英语语声识别挑战赛(AESRC2020)旨在提供一个通用的测试平台,促进口音相关研究182
13、0。挑战赛中设置了两个赛道英语口音识别(赛道1)和英语口音语声识别(赛道2)。在挑战赛的赛道1中,利用Phone Posteriorgram(PPG)特征和基于语声合成(Text-to-speech,TTS)的数据增强方法,Huang等18获得了冠军。这是口音识别,与常规的FBank特征相比,PPG特征的引入带来了超过15%的性能提升。并且,他们通过test-time数据增强和分层多嵌入联合模型训练,进一步提升了口音识别的准确率。此外,Gao等19通过使用混合CTC/Attention的预训练自动语声识别(Automatic speech recog-nition,ASR)法排名第二。为了将发
14、音和语言学知识整合到网络中,他们首先用CTC/attention混合方式预先训练了一个ASR模型,通过在文本中插入口音标签来扩展输出token列表,并使用口音语声数据集对网络参数进行微调。尽管有监督学习更有效,但是有标签的数据比无标签的数据更难获得,因此在真实场景中探索自监督的预训练方法来缓解这一问题是有意义的。因此前人研究了口音识别的自监督训练方法21。与x-vector不同的是,他们直接基于每一帧识别口音,而不是基于sentence-level向量,然后计算出所有帧级输出的平均值作为模型的最终预测。为了提高口音识别的准确率,本文采用了多种方法进行优化。首先,为了解决声学特征中关键特征权重不
15、突出的问题,引入了有效的注意力机制,并对多种注意力机制进行了比较和分析。通过模型自适应学习通道和空间维度的不同权重来提高口音识别的性能。并在Common Voice英语口音公开数据集上进行实验验证该方法的有效性。之后,为了缓解上述数据集中明显存在的长尾(Long-tail)效应,提出了一种树形分类方法,通过多次二分类过程减轻样本混淆程度。最后,针对口音识别声学特征中存在大量非口音信息导致识别准确率难以提升的问题,受域对抗训练(Domain adversarialtraining,DAT)的启发,尝试通过设计一种对抗学习方法,使得模型在编码过程中自适应剔除口音识5002024 年 5 月别声学特
16、征中的冗余信息。1 方法1.1注意力模块为了应对口音识别系统中声学特征包含大量冗余信息的问题,本文引入了注意力机制,它可以帮助模型自动关注与当前任务相关的特征,并忽略与当前任务无关的特征。注意力机制可以视为一种加权机制,它为输入序列中每个位置分配一个权重,以确定哪些位置需要更多的关注。这些权重可以通过计算输入序列中每个位置与查询向量之间的相似度来确定。注意力机制是一种模拟人类注意力的方式,是深度学习中一种重要的技术,它的主要作用是让模型能够在处理输入数据时关注重要的信息,并降低无关信息的干扰22。注意力机制可以看作是特征图中重要信息的动态选择过程,通过特征的自适应权重来实现。注意力机制极大地提
17、高了许多计算机视觉任务的性能,例如,它在分类、目标检测、语义分割、人脸识别和多模态任务中发挥着重要作用。注意力机制在其他领域已经得到了广泛的研究,但很少有研究者将其引入口音识别中。首先引入了几个不同的注意力模块,包括SENet、ECANet和CBAM。SENet在通道维度上增加了注意力机制,关键操作是squeeze和excita-tion。squeeze操作通过全局平均池化将每个通道的二维特征压缩为一个实数,excitation操作为每个特征通道生成一个权重值,并将归一化权重分配给每个通道的特征。ECANet是SENet的改进版本,它在全局平均池化层之后直接使用一维卷积层,替换掉了全连接层。这
18、避免了降维,并有效地捕获跨通道交互。CBAM在SENet的基础上增加了空间注意力模块。本文尝试将CBAM中的通道注意力模块替换为ECANet,称为CBAM(ECA)。实验结果表明,CBAM模块对本文的任务有最大的提升效果。因此,采用了这种适用于卷积神经网络(Convolutional neural networks,CNN)的注意力机制CBAM(Convolutional Block Attention Mod-ule)22。给定一个特征图,CBAM模块可以将通道和空间两个维度的注意力特征图信息序列化,然后将这两个注意力图与原始的输入特征图相乘进行自适应特征校正,生成最终的特征图。通道注意力模
19、块是利用特征之间的通道关系生成通道注意力图。空间注意力模块利用特征间的空间关系生成空间注意力图。这个过程可以表述为F=Mc(F)F,F=Ms(F)F,(1)其中,F 为给定的特征图,Mc为一维通道注意力图,Ms为二维空间注意力图,表示元素级乘法,中间采用广播机制进行维数转换和匹配。更多细节可从前人研究中获知22。1.2树形分类方法在现实场景中,不同口音的数据分布非常不均匀,存在长尾分布现象。例如,在数据收集的过程中,美国口音的数据量是比较充足的,而澳大利亚口音的数据就比较难以获取。为了解决长尾效应,前人提出了一种有效的基于weight moving average(WMA)的交替解耦学习算法2
20、3。受此启发,本文提出了一种简单的树形分类方法,以减少长尾效应对识别准确率的影响。具体来说,对于数据量较小的类别,将地理位置或发音特征相似的口音数据归为同一类别中,以形成一个更大的数据集,可以与数据量较大的类别相抗衡。先整体进行二分类,再对每个类别的子集进行二分类或多分类,从形式上看类似于二叉树或多叉树。在本文中,首先将整个数据集分为native(美国和英国口音)和non-native(除美国和英国口音外)两类,然后训练网络进行native和non-native口音识别。同时对训练过程中得到的参数进行保存,这就像一个预训练的过程。其次,让模型为进一步的分类任务读取参数,这就像一个微调过程。在n
21、ative子集中,进一步对美式口音和英式口音进行分类,对于non-native子集也是如此,即通过进行多次二分类或三分类任务来实现一次性多分类任务,以减少多个类别之间样本的混淆。此外,多个二分类任务可以共享同一个网络,只需要保存各自的参数集。实验表明,该方法不仅简单、容易实现且性能提升效果明显。1.3对抗学习方法无论哪一种类型的特征,都必然包含了各种各样的信息。对于口音识别任务来说,说话人和其他信息是冗余的。Chowdhury等17进行了一项实验,以探索端到端口音识别模型中网络的每一层中都编码了什么信息。实验结果表明,不同属性的信息编码在CNN层和全连接(Fully connected,FC)
22、层的不同层中。第43卷 第3期杨壮等:针对口音识别中冗余特征及长尾效应的有效方法501在本任务中,说话人、语种和信道信息对口音识别来说是冗余的,但它们仍然被编码在网络的embeddings中。认为通过对抗学习剔除特征中的冗余信息是提高识别准确率的有效方法。具体来说,将CNN编码器网络作为生成器,将CNN输出的展平向量作为生成样本,倒数第二层FC 层输出的向量作为真样本(该向量在训练过程中编码了最多的口音信息)。然后计算两个向量的均方误差(Mean square error,MSE),在训练过程中同步优化该损失函数。可以将FC分类网络视为判别器,以保证识别准确率的提高,使CNN 编码的向量可以包
23、含更多的口音信息,相当于在卷积过程中剔除了与口音无关的冗余信息。该损失函数可表示为loss=mean(square(),(2)其中,表示卷积层最后一层输出特征图的展平向量,表示倒数第二层FC 层的输出向量。2 实验本节简要描述本文的实验设置和数据集。首先,分别引入多种注意力机制(SENet、ECANet、CBAM),观察它们对口音识别带来的不同影响,并将ECANet与CBAM相结合,观察其对口音识别性能的影响。其次,进行树形分类实验。最后,通过编码器展平的向量和分类器生成的向量计算出MSE,并传回到骨干网进行优化。2.1实验数据使用的数据集来自Mozilla Common Voice项目24,
24、本文仅使用6.1版本中带有口音标注的英语语声数据。Common Voice是一个公开的语声数据集,由世界各地志愿贡献者的声音提供支持,想要构建语声应用程序的人员可以使用该数据集来训练机器学习模型。本实验中的口音包括美国口音、英国口音、加拿大口音、印度口音和澳大利亚口音。在本文的实验数据集中,美国口音占56.2%,英国口音占16.1%,印度口音占10.8%,澳大利亚口音占9.7%,加拿大口音占7.1%。可以看出,数据分布非常不均衡。因此,提出了一种树形分类方法,用多次二分类或三分类代替直接的一次性多分类,以减少多个类别之间样本的混淆。2.2评价指标一般来说,单一的评价指标不能完全评估一个机器学习
25、模型。偏离现实世界,只用好或坏评估一个模型也是一种糟糕的评估方法。因此,使用多个常用的分类模型评价指标来评价模型的性能。对于目前的口音识别研究来说,提高识别准确率仍然是最重要的。因此,在所有的实验中,本文都以准确率作为主要的评价指标。对于二分类任务,增加了3个评价指标,分别是召回率(Recall)、精确度(Precision)和F1分数。2.3实验设置本文所有的实验都在TensorFlow 2.0平台上进行。对于每一段声频,与基线系统一样,提取18维(Mel-frequency cepstrum coefficient)MFCC向量,并将MFCCs从第10帧到第50帧的最后18维元素与第一帧的
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 针对 口音 识别 冗余 特征 长尾 效应 有效 方法
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。