Ti-Reader:基于注意力机制的藏文机器阅读理解端到端网络模型.pdf
《Ti-Reader:基于注意力机制的藏文机器阅读理解端到端网络模型.pdf》由会员分享,可在线阅读,更多相关《Ti-Reader:基于注意力机制的藏文机器阅读理解端到端网络模型.pdf(9页珍藏版)》请在咨信网上搜索。
1、第3 8卷 第2期2 0 2 4年2月中文信息学报J OUR NA LO FCH I N E S EI N F O RMAT I ONP R O C E S S I NGV o l.3 8,N o.2F e b.,2 0 2 4文章编号:1 0 0 3-0 0 7 7(2 0 2 4)0 2-0 0 6 1-0 9T i-R e a d e r:基于注意力机制的藏文机器阅读理解端到端网络模型孙 媛1,2,3,陈超凡1,2,刘思思1,2,赵小兵1,2(1.中央民族大学 信息工程学院,北京1 0 0 0 8 1;2.国家语言资源监测与研究少数民族语言中心,北京1 0 0 0 8 1;3.民族语言智
2、能分析与安全治理教育部重点实验室,北京1 0 0 0 8 1)摘 要:机器阅读理解旨在教会机器去理解一篇文章并且回答与之相关的问题。为了解决低资源语言上机器阅读理解模型性能低的问题,该文提出了一种基于注意力机制的藏文机器阅读理解端到端网络模型T i-R e a d e r。首先,为了编码更细粒度的藏文文本信息,将音节和词相结合进行词表示,然后采用词级注意力机制去关注文本中的关键词,利用重读机制去捕捉文章和问题之间的语义信息,自注意力机制去匹配问题与答案的隐变量本身,为答案预测提供更多的线索。最后,实验结果表明,T i-R e a d e r模型提升了藏文机器阅读理解的性能,同时在英文数据集S
3、Q u A D上也有较好的表现。关键词:机器阅读理解,注意力机制;端到端网络;藏文中图分类号:T P 3 9 1 文献标识码:AT i-R e a d e r:A nE n d-t o-E n dA t t e n t i o nB a s e dM o d e l f o rT i b e t a nM a c h i n eR e a d i n gC o m p r e h e n s i o nS UNY u a n1,2,3,CHE NC h a o f a n1,2,L I US i s i1,2,Z HAOX i a o b i n g1,2(1.S c h o o l o f
4、I n f o r m a t i o nE n g i n e e r i n g,M i n z uU n i v e r s i t yo fC h i n a,B e i j i n g1 0 0 0 8 1,C h i n a;2.N a t i o n a lL a n g u a g eR e s o u r c e sM o n i t o r i n ga n dR e s e a r c hC e n t e r f o rM i n o r i t yL a n g u a g e s,B e i j i n g1 0 0 0 8 1,C h i n a;3.K e yL
5、 a b o r a t o r yo fE t h n i cL a n g u a g e I n t e l l i g e n tA n a l y s i sa n dS e c u r i t yG o v e r n a n c eo fMO E,B e i j i n g1 0 0 0 8 1,C h i n a)A b s t r a c t:M a c h i n er e a d i n gc o m p r e h e n s i o na i m s t oe n a b l em a c h i n e s t oa n s w e rq u e s t i o n
6、 s r e l a t e d t oag i v e na r t i c l e.T oa d d r e s s t h em a c h i n e r e a d i n gc o m p r e h e n s i o nm o d e l s i n l o w-r e s o u r c e l a n g u a g e s,t h i sp a p e rp r o p o s e s a ne n d-t o-e n da t-t e n t i o nb a s e dm o d e l f o rT i b e t a nn a m e dT i-R e a d e
7、 r.F i r s t,t oe n c o d em o r e f i n e-g r a i n e dT i b e t a n t e x t i n f o r m a t i o n,t h i sp a p e rc o m b i n e s s y l l a b l e s a n dw o r d s f o rw o r de m b e d d i n g,a n d t h e nu s e sw o r d-l e v e l a t t e n t i o n t oc a p t u r e t h ek e y w o r d si nt h ea r
8、t i c l e.M o r e o v e r,t h er e-r e a dm e c h a n i s mi sa p p l i e dt oc a p t u r et h es e m a n t i c i n f o r m a t i o nb e t w e e nt h ea r t i c l ea n dt h eq u e s t i o n s,a n dt h es e l f-a t t e n t i o n i su s e dt om a t c ht h eh i d d e nv a r i a b l e so f t h eq u e s
9、t i o na n dt h ea n s w e r.T h ee x p e r i m e n t a l r e s u l t ss h o wt h a tT i-R e a d e ri m p r o v e st h ep e r f o r m a n c eo fT i b e t a n m a c h i n er e a d i n gc o m p r e h e n s i o n,w h i l ep r e s e r v i n gag o o dp e r f o r m a n c eo nt h eE n g l i s hd a t a s e
10、tS Q u A D.K e y w o r d s:m a c h i n er e a d i n gc o m p r e h e n s i o n;a t t e n t i o n;e n d-t o-e n dn e t w o r k;T i b e t a n收稿日期:2 0 2 2-0 3-1 6 定稿日期:2 0 2 2-0 4-2 9基金项目:国家自然科学基金(6 1 9 7 2 4 3 6);中央民族大学项目(G R S C P 2 0 2 3 1 6,2 0 2 3 QNY L 2 2)0 引言机器阅读理解是自然语言处理领域中从感知文本到理解文本的重要一步,其要求机
11、器阅读文本信息如文章或故事,然后回答与该文本相关的问题。这些问题可以被设计成各式各样的形式用于测试机器的理解能力。早期,大多数机器阅读理解系统是基于规则或统计模型的,研究人员必须手工设计一些复 杂 的 语 法 或 语 义 规 则。这 些 系 统 只 能 达 到3 0%4 0%的精度1,因此这些成果并没有引起广泛关注。在接下来的几十年中,研究人员开始关注中 文 信 息 学 报2 0 2 4年机器阅读理解数据集的构建,H e r m a n n等人提出了一个完形填空式的英语机器阅读理解数据集 C NN&D a i l y M a i l。F e l i x等人 发布了C h i l d r e n
12、sB o o kT e s t数据集2。L a i等人3在2 0 1 7年发布了R A C E数据集。R a j p u r k a r等人在2 0 1 6年4公布了S t a n f o r dQ u e s t i o na n s w e r d a t a s e t(S Q u A D)的大规模问答数据集,它是抽取式的机器阅读理解数据集,数据集的问题是人工提出的,答案是文章中出现的一段连续的片段,该数据集包含了1 0 77 8 5个高质量的问题。随着这些数据集的发布,一些优秀的英文机器阅读理解模型如S-N e t5、A SR e a d e r6、I AR e a d e r7等被提
13、出。这些模型在英文阅读理解任务上取得了和人类相媲美的精确匹配性能。对于藏文等低资源语言的机器阅读理解却鲜有提及。其一是因为与英语机器阅读理解相比,现有的藏文分词工具可能会带来错误,产生语义歧义,从而将错误传播到下游任务中。其二是对于低资源的机器阅读理解任务,在小规模的数据集上很难获得良好的性能,因此需要机器阅读理解模型来加强模型的理解力。针对以上问题,本文提出了一种端到端的藏文机器阅读理解模型。为了减少分词引起的错误传播,模型引入了音节级别的信息。另外,为了提高模型的理解能力,本文采用了一种多级注意力机制。综上所述,本文的主要贡献如下:(1)为了编码更细粒度的藏文文本信息,本文提出了一种将音节
14、和词相结合的词表示方法,使模型能够学习藏文中更复杂的信息,降低分词带来的错误语义信息。(2)藏文的文本较长,段落中会存在一些与问题无关的干扰信息,这些干扰信息会影响模型预测的准确率,因此本文采用基于词级别的注意力机制去关注与答案相关的关键词,从而避免长文本信息中无关信息的干扰。(3)为了加强模型的理解能力,本文采用重读机制去捕捉文章和问题之间的语义信息,采用自注意力机制去匹配问题与答案的隐变量本身,为答案预测提供更多的线索。1 相关研究近年来,随着许多英文大规模数据集的出现,基于深度学习的机器阅读理解研究取得了一些显著的成绩。W a n g等人提出M a t c h-L S TM模型8,他们分
15、别采用长短时记忆网络(L S TM)9对问题和段落进行编码,然后在L S TM单元中引入基于注意力的问题加权表示。随后,微软团队为了捕捉文章中单词之间的长期依赖关系提出了R-N e t模型1 0,通过引入额外的自注意力层来实现,实验结果表明,通过引入自注意力机制能够提高模型的准确性。C u i等人提 出 了“A t t e n t i o no v e r A t t e n t i o n”阅 读 器 模型1 1,这是一种基于行和列相结合的注意力计算方法。为了进一步提高模型的准确性,他们采用了“N-B e s t”和“重新排列”的策略来验证答案。与以往的工作不同,S e o等人采用了两个方向
16、的注意力,并提出了B i D A F模型1 2,他们认为通过计算问题到文章和文章到问题两个方向的注意力可以提取更多的信息,B i D A F没有将文本信息嵌入到固定长度的向量,而是使信息在向量之间流动以减少早期信息 加 权 求 和 而 导 致 的 信 息 损 失。另外,他们不直接依赖上一时刻的注意力,这使得后续的注意力计算不受先前错误的注意力信息的影响,最后他们的 实验也证 明 了 该 模 型 的 有 效 性。X i o n g等人则是提出了一个D C N模型1 3,该模型使用交互注意力机制来捕捉问题和段落之间的交互。D C N的特点在于应答层,它们使用多轮迭代指向机制,每一轮迭代都会产生答案
17、开始位置和结束位置的预测。基于这两个预测,采用L S TM和H i g h w a yM a x-o u t网络用于更新一轮的答案范围预测。在交互层,D C N使用双向注意力机制来计算原始的查询感知表示。上述模型由于注意力层数较少以及网络深度不够深,导致存在捕获问题和段落之间语义信息较弱的问题。为了解决这个问题,最近一系列的工作通过 堆 叠 多 个 注 意 力 层 来 增 强 模 型 的 理 解 能 力。H u a n g等人1 4提出F u s i o n-N e t模型,该模型使用全连接感知的多层注意力结构来获取问题中完整的语义信息并将其集成到段落表示中。W a n g等人1 5则是提出了
18、一种多粒度的分层注意力融合网络,通过计算不同粒度下的注意力分布后进行分层语义融合,他们的实验证明了多层注意力能够获取问题与文章之间的交互信息,从而提高模型的性能。T a n等人5提出提取生成模型,他们使用R NN和注意力 机 制 来 构 建 问 题 和 上 下 文 表 示,然 后 使 用S e q 2 S e q模型生成基于关键信息的答案。同时,为了获得问题和段落的语义表示,需要对嵌入表示进行编码,以捕获上下文语义信息。常见的编码组件包括递归神经网络(R N N)和卷积神经网络262期孙媛等:T i-R e a d e r:基于注意力机制的藏文机器阅读理解端到端网络模型(C N N)。R N
19、N可以捕获句子之间的远距离依存关系,大多数研究广泛使用R N N作为嵌入网络来编码段落和问题1 6。这些工作可以有效地编码语义信息,但是需要很长时间来训练模型。为了解决这个问题,一些研究人员提议将C N N应用于机器阅读理解1 7。C N N可以有效地提取本地信息,与R N N相比,C N N的优势在于可以并行训练,因此训练速度更快。但是C N N的主要缺点是它只能捕获本地信息特征,而不能有效地处理长距离依赖性,因此C N N必须解决长距离信息提取的问题。本文在以上工作的基础上,提出了一种基于注意力机制的藏文机器阅读理解端到端网络模型T i-R e a d e r,旨在解决低资源语言(如藏文)
20、机器阅读理解的问题。2 模型总体架构模型的总体框架如图1所示,主要包括:融入音节信息的输入嵌入层、多级注意力层、答案输出层。首先,输入嵌入层针对输入的藏文段落和问题文字信息进行编码,并融入细粒度的音节信息。然后,为了解决模型理解能力不足的问题,本文将文本词向量送入多级注意机制层,这部分包括词级注意力机制、重读机制和自注意力机制,分别用于对段落中与问题相关的关键词搜索、对段落和问题之间的关键语义信息的捕捉和对遗漏的关键线索的搜索。最后答案输出层输出预测答案的始末位置。图1 T i-R e a d e r模型架构2.1 数据预处理与英文不同,藏文是拼音文字,字级别的单位是音节。一些音节可以指示一些
21、有意义的“格”。藏文中的“格”是一种功能音节,可以区分字并解释字在短语或句子中的作用。它可以帮助模型给出正确的36中 文 信 息 学 报2 0 2 4年答案。实际上,藏文中有许多音节可以像“格”一样为机器阅读理解任务提供一些关键信息。因此,有必要将音节信息嵌入编码层中。另一方面,音节的嵌入可以减少由于不正确的分词而造成的语义歧义。基于以上考虑,本文将音节和词信息进行了结合。接下来,我们将介绍音节级和词级的藏文文本预处理。(1)音节级别的预处理:因为音节之间存在定界符,所以分割音节很容易,可以根据定界符“”分隔音节。(2)词级别的预处理:对于词级别切分,本文使用藏文词切分工具1 8。基于词级以及
22、音节级的文本预处理的样例如表1所示。表1 数据预处理样例原始句子大多的一次性餐具是可回收的塑料音节切分词切分2.2 输入嵌入层藏文具有很强的语法规则,它是由一个一个的音节组成的,因此音节是藏文的基本构成单位。值得注意的是,某些音节可能包含丰富的语义信息,这些信息将有助于预测正确答案。因此,在输入嵌入层我们将音节嵌入词向量中,从而可以为网络提取更多的语义信息。假设有一个问题序列Q=q1,q2,q3,qn 和一个段落序列P=p1,p2,p3,pm,我们将它们分别转换为音节级和词级的嵌入(sq1,sq2,sq3,sqn 和sp1,sp2,sp3,spm)。同时,我们使用预训练模型对问题和段落进行编码
23、。每个单词通过F a s T e x t编码为1 0 0维向量。对于音节级编码,我们使用双向长短时记忆神经网络(B i L S TM),并将最终状态向量作为音节级的表示。最后,我们通过两层高速公路网络融合两个不同级别的向量1 9,文章和问题最终编码形式化表示为Mqtnt=1和Mptmt=1。2.3 多级注意力机制2.3.1 词级注意力机制就像人们做阅读理解题目一样,先阅读问题,然后快速地阅读文章,标记出与问题相关的单词并重点去关注这些关键词,最后搜索正确的答案。受此启发,本文提出了一种词级注意力,用于进行单词级别的关注,并计算段落中每个单词与问题的重要性。假设 通 过 输 入 嵌 入 层 的
24、词 语 的 嵌 入 表 示 为Mptmt=1,而问题词级嵌入为Mqtnt=1。文章中每个词的注意力权重可以由式(1)计算得到。Su=VT*t a n(WQu*Mqi+Wpu*Mpj)(1)其中,Wqu和Wpu是可以训练的权重矩阵,Su是相关性矩阵。接下来我们对这个相关性矩阵Su中每一行进行S o f t m a x函数归一化,其形式化表示为式(2)所示。aue x p(Su)(2)为了确定段落中哪些单词有助于回答该问题,我们计算具有问题意识的分配矩阵,其计算如式(3)所示。Api=auMqj(3)最后,我们使用双向长短时记忆网络去获取句子级别的文章表示,其形式化表示如式(4)所示。Vpt=B
25、i L S TM(Vpt-1,Apt,Mpt)(4)2.3.2 重读机制词级别的注意力层进行的是浅层注意力计算。为了提高模型性能,本文采用高层级别的注意力机制来考虑哪个句子包含正确的答案。因此,本文引入了“重读注意力机制”。重读注意力机制旨在计算句子级别上段落和问题之间的注意力。在计算注意力之前,我们需要理解问题。即对于问题中的每个词,本文使用双向长短时记忆网络去生成高层的问题表示,其形式化表示如式(5)所示。yqi=B i L S TM(yqi-1,sqi,wqi)(5)这里的yqi-1表示的是前一个状态的隐藏向量,sqi是输入嵌入层中问题的音节嵌入的输出,wqi则是词级别注意力机制层的输出
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- Ti Reader 基于 注意力 机制 藏文 机器 阅读 理解 端到端 网络 模型
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。