基于小样本学习的口语理解方法综述.pdf
《基于小样本学习的口语理解方法综述.pdf》由会员分享,可在线阅读,更多相关《基于小样本学习的口语理解方法综述.pdf(12页珍藏版)》请在咨信网上搜索。
1、2024 年1 月郑 州 大 学 学 报(工 学 版)Jan.2024第 45 卷第 1 期Journal of Zhengzhou University(Engineering Science)Vol.45No.1收稿日期:2023-08-20;修订日期:2023-09-28基金项目:宁夏自然科学基金资助项目(2021AAC03224,2021AAC03217)作者简介:刘纳(1986),女,宁夏银川人,北方民族大学讲师,博士,主要从事数据挖掘与自然语言处理技术研究,E-mail:liuna 。引用本文:刘纳,郑国风,徐贞顺,等.基于小样本学习的口语理解方法综述J.郑州大学学报(工学版),2
2、024,45(1):78-89.(LIU N,ZHENG G F,XU Z S,et al.A survey of spoken language understanding based on few-shot learningJ.Journal of Zhengzhou University(Engineering Science),2024,45(1):78-89.)文章编号:1671-6833(2024)01-0078-12基于小样本学习的口语理解方法综述刘纳1,2,郑国风1,2,徐贞顺1,2,林令德1,2,李晨1,2,杨杰1,2(1.北方民族大学 计算机科学与工程学院,宁夏 银川 75
3、0021;2.北方民族大学 图像图形智能处理国家民委重点实验室,宁夏 银川 750021)摘要:小样本口语理解是目前对话式人工智能亟待解决的问题之一。结合国内外最新研究现状,系统地梳理了口语理解任务的相关文献。简要介绍了在非小样本场景中口语理解任务建模的经典方法,包括无关联建模、隐式关联建模、显式关联建模以及基于预训练范式的建模方法;重点阐述了在小样本口语理解任务中为解决训练样本受限问题而提出的基于模型微调、基于数据增强和基于度量学习 3 类方法,介绍了如 ULMFiT、原型网络和归纳网络等代表性模型。在此基础上对不同模型的语义理解能力、可解释性、泛化能力等性能进行分析对比。最后对口语理解任务
4、面临的挑战和未来发展方向进行讨论,指出零样本口语理解、中文口语理解、开放域口语理解以及跨语言口语理解等研究内容是该领域的研究难点。关键词:口语理解;小样本学习;模型微调;数据增强;度量学习中图分类号:TP391.1文献标志码:Adoi:10.13705/j.issn.1671-6833.2024.01.012近年来,对话式人工智能(dialogue artificial in-telligence,DAI)在工业、医疗、金融和教育等领域受到广泛的关注。DAI 是一种能够进行自然语言对话的人工智能技术,通过将自然语言处理(natural lan-guage processing,NLP)、语音识
5、别(automatic speech recognition,ASR)1、语义理解和对话理解等技术应用到智能语音对话系统中,以实现实时有效的人机交互。根据 DAI 的应用场景,将其划分为面向任务的对话系统(task-oriented dialogue,TOD)和开放域对话系统(open-domain dialogue,ODD)两大类。其中,TOD 主要解决针对某一具体领域的问题。例如,医疗行业部署智能对话系统完成病情分析、药品信息查询和提供诊疗方案等任务;教育领域利用智能对话系统实现教学体验提升、定制学习方案和获取学习资源等业务;金融领域则利用智能对话系统提供账户余额查询、定制理财方案等服务。
6、ODD 需要实现与人类建立情感联系,进行共情对话。与TOD 相比,ODD 的对话主题更为开放、覆盖范围更广、实现难度更大,是对话式人工智能亟待发展的研究方向之一。2022 年 11 月,OpenAI 公司发布了全新的对话式通用人工智能工具即 ChatGPT,受到了全球各界的广泛关注。ChatGPT 产品的落地标志着大规模预训练语言模型(pre-train language model,PLM)已经具备了通用人工智能的特征。在 ChatGPT 产品问世之后,OpenAI 公司于 2023 年 3 月发布了最新的语言模型 GPT-4,其性能与 ChatGPT 最初使用的GPT-3.5 模型相比有了
7、巨大的提升。在口语理解方面,模型的理解能力、回答的可靠性有了显著提高。中国类似于 ChatGPT 的研究也正在进行,例如百度公司推出了基于文心大模型的产品文心一言;复旦大学发布了中国第一个对话式大型语言模型MOSS;在教育领域网易公司将类 ChatGPT 技术进行落地研发等。目前,中国在通用人工智能领域的发展与外国相比还有很大的差距,但发展速度快,与国际领先水平的差距会随着对大规模预训练语言模型的持续研究而逐渐缩小。目前针对口语理解任务的研究综述较多,2020年,Louvan 等2根据神经网络结构特征对口语理解任务的方法进行归纳。2022 年,Weld 等3针对如何提高联合模型的能力、如何捕获
8、深层次语义和如何提高模型的泛化性 3 大问题,对前人的工作进行第 1 期刘纳,等:基于小样本学习的口语理解方法综述 79 总结。但以上大多数研究都采用非小样本学习的方法,对研究者来说,获取大量有标注的训练样本代价非常昂贵,并且对于新出现的意图领域,带标注的样本较少,获取十分困难。与之前的工作相比,本文主要对在小样本场景中口语理解任务的建模方式进行介绍,具有较强的针对性。本文首先简要介绍了在非小样本场景中,口语理解任务建模的经典方法;其次,重点阐述了在小样本口语理解任务中为解决训练样本受限问题而提出的基于模型微调、基于数据增强和基于度量学习 3类最新研究方法,并对不同方法的优缺点进行全面的比较与
9、总结归纳;最后,对小样本口语理解领域存在的问题与挑战进行分析。1相关工作口语理解(spoken language understanding,SLU)是对话式人工智能系统的核心任务之一。它的目标任务是提取用户输入的话语中所包含的意图,即用户的行为,并给予一定的反馈。2011 年,Tur 等4将口语理解任务划分为意图分类和槽位填充两个子任务。如表 1 所示,在槽位填充任务中采用的是 BIO标注方案,通过意图分类识别用户的具体行为。表 1口语理解任务举例Table 1Examples of spoken language understanding tasks任务样本BookaflighttoBe
10、ijing槽位填充BIIOB意图分类BookTicket根据两个子任务之间的关联程度将非小样本场景下的口语理解相关研究划分为 4 类:无关联建模,意图分类与槽位填充任务分别单独建模;隐式关联建模,意图分类与槽位填充联合建模,获取两个子任务之间的全部共享信息;显式关联建模,意图分类与槽位填充联合建模,获取两个子任务之间有用的共享信息;基于预训练范式建模,以上下文感知为核心,捕获更深层次的语义信息。1.1无关联建模无关联的建模方式将口语理解任务划分为意图分类和槽位填充两个子任务单独建模,模块化设计让每个模型结构简单、灵活,并且可以在不修改其他模块的情况下对特定的任务进行调整。2013 年,Bhar
11、gava 等5对口语理解任务单独建模进行了早期尝试。利用支持向量机(support vec-tor machine,SVM)对意图分类任务建模,利用条件随机场(conditional random field,CRF)对槽位填充任务建模。同时结合上下文信息,将前一个话语中的知识合并到当前话语中,显著提高了意图分类与槽位填充任务的性能,这是口语理解任务无关联建模的开端。随着深度学习的发展,循环神经网络(recurrent neural networks,RNN)表现出强大的 语言建模能力。2015 年,Mesnil 等6采用 RNN 对槽位填充任务进行了深入研究,比较了 RNN 的几种变体,其中
12、包括 Elman-type 网络和 Jordan-type 网络。在 ATIS数据集上,两种网络结构的性能都优于 CRF 模型。2017 年,Lin 等7认为基于 RNN 的递归模型在所有的时间步中携带样本的语义信息非常困难,并且会造成灾难性遗忘的问题,因此对传统的句子编码方式进行改进,设计双向 LSTM 结构,使用自注意力机制替换传统的最大池化或平均池化,从而有效减少了 RNN 的长期记忆负担。卷积 神 经 网 络(convolutional neural network,CNN)最初应用在图像领域中,后来研究者将 CNN应用在语义融合、句子建模等 NLP 任务中,同样取得了非常出色的效果。
13、2014 年,Kim8在 word2Vec基础上添加了卷积神经网络结构,使用词向量嵌入与 CNN 相结合的方式进行文本分类任务。CNN 利用不同大小的卷积核来提取句子中的关键信息,更好地建立局部语义相关性。但其存在的缺陷是难以提取对于距离大于卷积核窗口长度的特征,同时使用最大池化仅保留提取特征向量的最大值,导致部分重要的位置编码信息丢失。针对上述 CNN 的缺陷,2018 年,Zhao 等9开启了使用动态路由的胶囊网络进行文本分类任务的早期探索。胶囊网络利用神经元向量替代传统神经网络的单个神经元节点,显著改善了 CNN 空间不敏感的问题。利用动态路由算法调整子胶囊与父胶囊之间的权重,解决了使用
14、最大池化算法丢失位置编码信息的问题。无关联的建模方式存在的缺陷是需要对每个任务进行单独建模,模型结构整体较为庞大。各任务的模型之间没有数据或功能共享,易产生数据碎片。在实际的应用场景中,某些意图和槽位信息会在多个领域之间共享,无关联的建模方式无法利用两个任务之间的共享知识,导致用户在与系统交互过程中达不到满意的效果。为解决上述问题,后续工作提出了联合建模的方法。1.2隐式关联建模联合建模思想的提出,极大地促进了口语理解领域的研究。但在早期的工作中,大多数采用隐式80 郑 州 大 学 学 报(工 学 版)2024 年联合建模的方式。仅通过共享编码器(shared en-coder)捕获意图分类和
15、槽位填充两个子任务之间的共享特征,之间没有进行任何的显式交互。2016 年,Zhang 等10首次提出将意图分类与槽位填充任务进行联合建模,并首次将 RNN 结构引入到意图分类任务中。由于 RNN 对于捕获长期依赖关系十分困难,同时会带来梯度消失和梯度爆炸等问题,因此选择基于 RNNs 改进的门控循环神经网络 GRU11作为模型的基础架构。该联合模型的缺陷在于需要等待输入序列全部输入到模型之后才能开始后续的意图分类任务,实时性差。在实际的SLU 应用中,用户对系统的实时性要求通常较高。为解决上述问题,Liu 等12提出基于 LSTM 的联合SLU 实时模型。由于 LSTM 具有较强的捕获词序列
16、中长期依赖关系的能力,因此使用 LSTM 作为基本的 RNN 单元。通过对整个序列上的 RNN 单元输出取平均值作为样本的表示向量,利用最后一个 RNN单元输出预测的意图类别。对当前时间步以及之前时间步的隐藏状态建模槽位标签之间的依赖关系,每个时间步以单个词语作为输入,输出对应的槽位标签。Liu 等13借鉴注意力机制在机器翻译领域的成功经验,首次提出将基于注意力机制的循环神经网络模型应用在联合意图分类和槽位填充任务中。与机器翻译不同的是,在槽位填充任务中,输入的文本与输出的标签之间具有一一对应的关系,因此采用 Seq2Seq 结构,如 图 1 所 示。编 码层使用双 向LSTM,可更好地捕获长
17、期依赖关系。解码层使用LSTM 并添加注意力机制预测槽位标签,在最后的隐藏层上通过前馈神经网络输出意图类别。图 1Seq2Seq 建模口语理解任务结构图Figure 1Seq2Seq modeling spoken language understanding task structure diagram上述隐式联合建模的方式在一定程度上利用了意图分类和槽位填充两个任务之间的共享信息,极大地提高了口语理解的准确性。但缺陷在于隐式联合建模缺乏噪声过滤机制,两个子任务的噪声会在联合模型中进行传播,导致模型性能受限。为解决上述问题,后续工作提出了显式关联建模的方法。1.3显式关联建模为解决隐式关联建
18、模中的噪声传播问题,一些工作利用显式联合建模的方法,通过添加类似于门控机制的方式,选择性地获取意图分类和槽位填充任务之间的共享信息。2018 年,Goo 等14首次提出使用显式建模的方式在意图分类与槽位填充两个任务之间建立联系。Goo 等14认为槽位信息通常高度依赖于意图信息,因此提出一种槽位门控机制(SGM-SLU),对意图与槽位注意力向量之间的显式关系进行建模。具体而言,在槽位门控模型中引入附加门,结构如图 2 所示。首先利用权重矩阵 w 将槽位向量 CSi与意图向量 Ci维度扩充一致,进行相加操作。接着经过槽位门控,在最后一个时间步中进行求和,得到 g 向量表示联合向量 CSi与 Ci的
19、加权特征,其中 g 表示槽位与意图之间的关联程度。图 2SGM-SLU 结构图Figure 2Structural diagram of the SGM-SLU2019 年,Qin 等15认为 Goo 等14提出的仅依靠门控机制获取意图信息是有风险的,并且意图信息引导槽位填充任务具体过程的可解释性很差。因此,提出以堆栈作为数据结构的传播模型,将意图信息直接作为槽位填充任务的输入,提高了模型的可解释性。Chen 等16提出了一种具有条件随机场和先验掩码的多头自注意力联合模型。该模型使用多头局部自注意力机制来提取共享特征,使用掩码门控机制来建立意图分类和槽位填充两项任务输出的相关性,并使用 CRF
20、 约束槽位填充任务的输出,充分利用了两个任务之间的语义关系。以上的工作主要通过在意图分类与槽位填充任务之间建立单向交互,共享信息从意图流向槽位,无法充分利用它们之间的双向交互知识。Wang 等17设计了一种基于双模型的 RNN 语义框架解析网络结构,通过两个双向的 LSTM(BiLSTM)结合意图分类与槽位填充两个任务之间的双向交互知识,为每个样本同时生成意图和语义标签,显著提高了模型的性能。基于以上工作可以发现传统基于 RNN 的方法第 1 期刘纳,等:基于小样本学习的口语理解方法综述 81 只能处理一定的短期依赖,无法处理长期依赖问题。后来基于 LSTM 和 BiLSTM 的模型结构在一定
21、程度上突破了序列模型的局限性,但固有的顺序性限制了样本的并行化训练。显式联合建模的方式进一步利用了两个任务之间的共享知识,但模型无法捕获更深层次的语义信息。预训练模型的发展给口语理解任务带来了新的研究思路。1.4基于预训练范式建模自然语言处理领域中的预训练研究思路最早可以追溯到 word2Vec 模型的提出。预训练的核心在于使用大量的训练数据,从中提取共性特征,帮助NLP 下游任务简化其训练过程。早期的预训练模型专注于词向量编码,模型的特点是上下文无关,模型只知“上文”不知“下文”,缺乏双向交互能力,代表性的工作包括 word2Vec、GloVe 等。近几年的预训练模型以上下文感知为核心,共享
22、知识在上下文之间 进 行 双 向 流 动,代 表 性 的 工 作 包 括 ELMo、BERT、GPT 等。2019 年,Chen 等18首次将预训练模型应用到口语理解任务中,使用 BERT 预训练模型对意图分类和槽位填充任务进行联合建模,提出了 JointBERT模型。模型结构如图 3 所示,BERT 预训练模型的下游任务之一是文本分类,因此很容易就能扩展到意图分类任务中。将CLS标签的输出替换成意图分类器,为后续的标签添加序列标签器,输出槽位最佳的标签匹配序列。槽位标签的预测取决于上下文单词的预测,由于结构化预测模型可以提高槽位填充的性能,在 JointBERT 模型的基础上添加 CRF 来
23、对槽位标签之间的依赖关系进行约束建模。Joint-BERT 模型充分利用两个子任务之间的联系,捕获两个任务之间的共享知识。图 3JointBERT 模型结构图Figure 3JointBERT model architecture2020 年,Qin 等19认为仅识别对话中的显式意图并不能捕获用户的全部语义,对话中的隐式意图是更为重要的语义获取来源,因此提出一种协同交互式图注意力网络(Co-GAT)来联合对话显式意图分类和隐式意图分类这两项任务。模型的核心是设计一个协同的图交互层,可以同时获取上下文信息和交互信息。这是首次将上下文信息和交互信息结合进行联合显隐式意图识别的研究。以上基于预训练语
24、言模型的建模方式极大地促进了口语理解领域的发展。但通过对这些预训练模型性能的评估可以发现,目前基于预训练的方法并不能从根本上解决现有模型可解释性弱、泛化能力差、推理能力不足等问题,在深层次语义获取与理解方面还远远落后于人类的认知水平。同时,如何对大规模预训练语言模型进行压缩、降低参数量是一个亟待解决的问题。2小样本学习早在 2006 年,Li 等20首次提出了小样本学习的概念。小样本学习致力于解决数据受限的深度学习问题,通过对少量样本甚至一个样本的训练使模型性能达到甚至超越大数据深度学习的效果。在生活中,有很多场景都属于小样本学习的范畴,例如儿童仅通过几张绘图卡片就能认识海洋生物,依靠少量的样
25、本完成自主推理的过程。受到人类快速学习能力的启发,早期的研究人员将小样本学习方法应用在图像 领域,解决训 练样本数量 受限的问题。2015 年,Koch 等21设计孪生神经网络解决了 one-shot 图像分类问题。Zhang 等22在关系网络的基础上,通过数据增强的方法解决了小样本图像分类问题。在自然语言处理领域,小样本学习发展较为缓慢,原因是图像特征相比于文本特征更为客观,在少量样本的情况下,提取文本特征更为困难。近年来,随着预训练模型的发展,小样本学习在自然语言处理领域也有了一些突破。2018 年,Chen等23使用对比学习框架解决小样本文本分类中的区分表示和过拟合问题。Jian 等24
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 小样 学习 口语 理解 方法 综述
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。