基于Conformer的时域多通道语音分离方法.pdf
《基于Conformer的时域多通道语音分离方法.pdf》由会员分享,可在线阅读,更多相关《基于Conformer的时域多通道语音分离方法.pdf(7页珍藏版)》请在咨信网上搜索。
1、 :引用格式:陈佳佳,张海剑,华光基于的时域多通道语音分离方法无线电工程,():,():基于的时域多通道语音分离方法陈佳佳,张海剑,华光(武汉大学 电子信息学院,湖北 武汉)摘要:多通道语音中的空间特征信息为说话人分离提供了重要的线索,为了更好地提取通道间信息并有效降低网络的处理时延,提出一种多通道时域语音分离方法。利用多层编码器实现语音特征提取并挖掘通道间信息,在逐层编码过程中获得不同时间分辨率的语音特征并降低特征时间维度;引入结构对语音全局时间关系进行建模,在解码阶段使用特征加权跳跃连接融合对应编码层的输出特征进行解码,并将高维语音特征恢复为时域信号。在基于仿真的多通道混响带噪语音数据集中
2、进行实验,实验结果表明,所提方法通过多层编解码机制充分利用了多通道语音信息并降低了网络处理时延,通过实现并行数据处理和全局时间关系建模,在推理速度、分离语音质量和语音感知质量方面均优于基线单通道和多通道时域语音分离算法。关键词:语音分离;多通道;多层编码器中图分类号:文献标志码:开放科学(资源服务)标识码():文 章 编 号:(),(,):,:;收稿日期:基金项目:湖北省自然科学基金():()引言人类的听觉系统可以轻松地从有噪声或者其他人声干扰的复杂声学环境中分离出目标声源信号,然而对于机器来说,这仍是一个极具挑战性的任务。现实世界中语音信号经常且容易受到说话人语音、环境噪音和混响的干扰,这些
3、干扰会降低语音质量并影响语音的可理解性,因此需要对语音进行分离或增强,例如在语音通信中,需要将近端说话人声音与干扰说话人声音、环境噪声进行分离,再传递给远端听者。语音分离也是自动语音识别的关键预处理步骤,可应用于手机语音助手、汽车导航、医疗听写信号与信息处理 年 无线电工程 第 卷 第 期 设备和会议转录系统等。随着深度学习的发展,数据驱动的思想给传统信号处理问题提供了新的解决思路,基于深度学习的单通道语音分离技术也取得了巨大的进展,如深度聚类、置换不变训练等。然而,大多数基于深度学习的语音分离算法是在频域进行处理,将语音的幅度谱作为分离网络的输入,将混合语音的相位作为分离声源相位,这种方法存
4、在的问题是当混合语音相位与实际分离语音相位相差较大时,即使幅度谱得到了完美的估计,也难以重建真实信号。为了将相位估计融入语音分离模型中,端到端的时域语音分离算法开始受到更多关注。当环境中存在混响、噪声等干扰时,通常会模糊语音谱线索,使单通道语音分离算法受到影响。多模态语音分离和多通道语音分离包含了更丰富的说话人信息,因此在复杂的声学环境中表现出比单通道算法更好的性能。多通道语音分离算法可以分为类:第类是将多通道语音的通道间信息,如通道间相位差(,),与频谱特征结合,联合训练分离网络;第类是使用神经网络估计波束形成器系数实现语音分离;第类是直接将多通道语音作为网络输入,使用网络建模通道间特征,估
5、计分离语音频谱。基于单通道时域语音分离算法的优越表现,越来越多的研究者将多通道语音分离算法扩展到时域进行处理。文献提出使用卷积网络提取通道间卷积差特征替代特征,解决空间特征与时域分离算法特征不匹配问题。文献引入压缩激励脊髓模块显式学习潜在的通道关系。文献提出迭代波束形成分离网络,将全卷积时域语音分离网络()与最小方差无失真响应(,)波束形成器相结合,使用波束形成器对分离输出进行进一步增强。文献提出使用滤波求和网络估计时域波束形成器系数,并引入“转换平均连接”结构融合通道间信息。文献将语音分离与定位相结合,使用二分迭代分离法逐步分离空间中的声源。近年来,广泛应用于各种序列建模任务中,如自动语音识
6、别、语音增强和语音分离等。在出现之前,循环神经网络(,)是现代语音信号处理的重要组成部分,然而固有的顺序处理机制不利于数据的并行处理,在对长时间序列进行建模时需要大量的计算资源,通过自注意力机制学习特征之间的依赖,打破了的处理瓶颈,可以并行处理数据且有效地建模全局信息。根据的全局特征建模能力和卷积神经网络的局部特征提取能力,等提出了卷积增强的,即。在中引入了一个额外的卷积模块,用于建模序列局部信息。在自动语音识别、语音事件检测和语音增 强等 任 务 中,表 现 出 比更好的性能。本文提出了一种端到端的多通道时域语音分离网络,该网络使用多层编码器建模通道间关系,将作为主体分离网络,用于估计分离说
7、话人语音特征,使用多层解码器恢复语音信号,在特征解码过程中同时引入每一层的编码器输出,实现多尺度的特征融合。本文所提网络在分离效果和实际推理时间上均优于基线单通道和多通道语音分离算法。多通道语音分离定义设麦克风阵列包含个通道,环境中存在个说话人和环境噪声,则麦克风阵列接收的语音信号可以表示为:()()(),()式中:()表示第个麦克风接收到的第个说话人的语音信号,表示说话人数目,()表示第个麦克风接收到的噪声信号,表示待分离语音长度。多通道语音分离的目标是从多通道混合语音,中分离每个说话人的干净语音信号(),本文中说话人数目设置为。时域多通道语音分离模型本文所提时域多通道语音分离网络框架如图所
8、示,该网络主要由多层编码器、分离网络和多层解码器三部分组成。其中编码器部分用于获得不同时间分辨率的语音特征,并对通道间特征进行建模;分离网络用于建模特征长时依赖关系并输出分离说话人高维语音特征;解码器用于将模块输出的分离说话人语音特征恢复为时域信号。信号与信息处理 图时域多通道语音分离网络框架 编码器编解码模块如图所示。编码器将混合语音时域波形通过层堆叠的编码模块转化为深层特征表示,本文提出的编码模块基础结构如图()所示。在浅层的编码模块中,所提网络额外增加了一个上采样层,即图()中的虚线模块,用于提高浅层语音特征的时间分辨率。编码模块中的第一个卷积层用于实现特征降采样,输入通道为,输出通道为
9、,卷积核大小为,步长为;随后是一个激活层,用于提升网络的非线性映射能力;第二个卷积层的输入通道为,输出通道为,卷积核和步长都设置为,用于进一步提取特征通道间信息;随后是一个门控线性单元层,层可以有效地降低梯度弥散并保留非线性能力。每经过一个编码模块,特征通道变为原来的倍。设第个编码模块的输入语音特征为,则编码器输出可以表示为:(),()式中:、分别表示编码器中个卷积层的基函数,、分别表示经过编码模块后输出特征的通道数目和时间长度。图编解码模块 解码器解码器是编码器的逆运算,用于将模块输出的特征表示恢复为时域语音,解码器模块基础结构如图()所示。在浅层的解码模块中,所提网络对应增加了降采样层,即
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 Conformer 时域 通道 语音 分离 方法
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。