基于话语主题的对话文本摘要.pdf
《基于话语主题的对话文本摘要.pdf》由会员分享,可在线阅读,更多相关《基于话语主题的对话文本摘要.pdf(3页珍藏版)》请在咨信网上搜索。
1、信息通信基于话语主题的对话文本摘要刘东奇,王宏生(沈阳工业大学信息科学与工程学院,辽宁沈阳110 8 7 0)摘要:对话文本摘要任务是从一段拥有两位及以上参与者之间的交流话语中提炼出精简的内容,以便他人可快速了解对话的全过程。相对于传统的新闻式文本,对话文本通常具有结构复杂、信息来源混乱等难点。因此,传统的文本摘要模型并不能适配对话文本的结构,无法生成高质量的摘要内容。为此,文章提出了一种针对对话文本结构所改进的摘要生成方法,通过解析对话文本中的话语、说话人、话语主题三个元素,构建对话结构图。使用微调的Bi-LSTM对对话结构图中的节点以词为单位编码,通过基于Transformer模型的异构图
2、编码器对对话结构图进行图级编码,使用带有注意力机制和指针网络的解码器实现摘要内容的生成。主要解决对话文本摘要中出现的信息来源混乱和人称指代错误问题。实验结果显示,本文的模型在生成摘要的质量上有一定提高。关键词:对话文本;对话结构;文本摘要;异构图编码中图分类号:TP393(School of Information Science and Engineering,Shenyang University of Technology,Shenyang 110870,Liaoning)Abstract:The task of dialogue text summary is to extract c
3、oncise content from a conversation between two or more participants,so that others can quickly understand the whole process of dialogue.Compared with traditional news text,dialogue text usuallyhas difficulties such as complex structure and confusion of information sources.Therefore,the traditional t
4、ext summary modelcannot adapt to the structure of the dialogue text and cannot generate high-quality summary content.To this end,this paper pro-poses an improved summary generation method for the structure of the dialogue text,which constructs the dialogue structurediagram by analyzing the three ele
5、ments of the discourse,the speaker and the discourse theme in the dialogue text.The fine-tun-ed Bi-LSTM is used to encode the nodes in the dialog structure diagram in terms of words,the heterogeneous graph encoderbased on the Transformer model is used to encode the dialog structure diagram at the gr
6、aph level,and the decoder with attentionmechanism and pointer network is used to generate the summary content.It mainly solves the problems of confusion of infor-mation sources and personal reference errors in the dialogue text summary.The experimental results show that the model in thispaper improv
7、es the quality of the summary.Key words:dialogue text;dialogue struction;text summary;heterogeneous map coding1 引言对话文本摘要是文本摘要中的一种,它的主要目的是从一段对话交流的文本中总结出整段对话的关键内容,便于他人快速的完成梳理。近些年,由于在线会议、在线咨询、在线医生问诊等场景的普遍出现,关于对话文本摘要的研究获得了较多的关注。但由于对话文本和传统的新闻式文本在结构与内容特点上有很多不同之处。首先,对话文本是交互式结构,内容由多个发言者不断交替产生,而新闻式文本大多是单一发言者
8、的论述式结构。其次,对话文本中的关键信息较为分散,需要总结多句甚至是整段话才可以分析出它的中心内容,新闻式文本中的关键信息则较为集中,甚至文本中的某句话就可以代表整段话的中心内容。考虑到对话文本和新闻式文本的差异,若是单纯的采用解决新闻式摘要的方法来处理对话文本摘要问题会出现摘要过长、关键信息不全等问题,严重影响了摘要生成质量。针对这一问题已有一些有效的解决方法,Zhao等人开发了基于自适应学习的模型,利用主题分割话语引导摘要的生成。Chen和Yangl3引入了两个模型注释的对话结构视图辅助编码话语。2023年第0 5期(总第2 45期)文献标识码:A文章编号:2 0 9 6-9 7 59(2
9、 0 2 3)0 5-0 17 7-0 3Dialogue Text Abstract Based on Discourse ThemeLIU Dongqi,WANG Hongsheng决对话文本结构难处理的问题。2基于话语主题的对话文本摘要模型本节对实验中所构建的对话文本摘要模型进行详细的介绍,模型整体结构如图1所示,共分为三部分:对话结构图构建模块、编码器模块、解码器模块。对话结构图构建模块将对话文本解析成发言人、话语、主题词三种类型的元素,以它们为图节点构建对话结构图。编码器模块将对话结构图中的所有节点进行节点级编码和图形级编码。解码器通过注意力机制和拷贝机制实现摘要的生成。2.1对话结
10、构图在一段对话文本中,通常有“发言人”和“话语”两种元素,结构如图2 所示,“发言人”表示了每句话的来源,“话语则是内容的主体部分,是最大的信息来源。通过按照“发言人:话但现有的对话文本摘要模型针对对话文本的结构没有特别的设计,最终生成的摘要仍会出现人称指代性错误。为解决这一问题,本文设计了一种基于说话人-话语-主题的对话文本摘要模型,通过对对话文本结构拆解,将对话文本转化成对话结构图,使模型学习到对话文本中的结构信息,着重于解收稿日期:2 0 2 3-0 2-0 1作者简介:刘东奇(19 9 5-),男,硕士,主要研究方向:机器学习与智能软件;王宏生(19 6 4-),男,副教授,硕士生导师
11、,主要研究方向:软件设计自动化,智能信息检索。177Changjiang Information&Communications语”的结构解析出这两种基本元素。对话节点编码器图1模型结构图Fiona:heyAnna:helloFiona:can yougowithmetoadoc?Fiona:IneedsupportAnna:yeahsureFiona:thank yousomuchFiona:itstomorrowat8a.m.八发言人图2 对话文本结构图另外,根据我们日常交流的习惯,某些话语会有一个特定的主题,表明它们在整个对话过程中的进程。在摘要生成的过程中引入主题词能够引导摘要内容的方向
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 话语 主题 对话 文本 摘要
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。