融合领域要素知识的多粒度法律文本匹配方法.pdf
《融合领域要素知识的多粒度法律文本匹配方法.pdf》由会员分享,可在线阅读,更多相关《融合领域要素知识的多粒度法律文本匹配方法.pdf(8页珍藏版)》请在咨信网上搜索。
1、融合领域要素知识的多粒度法律文本匹配方法罗森林,董勃,潘丽敏,吴舟婷(北京理工大学 信息与电子学院,北京100081)摘 要:法律文本匹配的目标是快速提炼对比要素信息并发现关联案件,保障法律适用的统一性同案同判.现有方法未能充分利用特定类型案件的先验知识,其核心要素提取准确率低,仅进行词向量的权重计算,忽略字义、句义、句法的向量信息,影响匹配效果.提出一种融合领域要素知识的多粒度法律文本匹配方法,通过建立特定案件类型领域知识库准确提取法律要素,引入字、词、句 3 个粒度的注意力机制计算不同文本向量的权重提升匹配模型效果.实验结果表明,该方法在公开数据集上可达到最好效果.关键词:文本匹配;法律要
2、素;多粒度;领域知识中图分类号:TP391 文献标志码:A 文章编号:1001-0645(2024)03-0298-08DOI:10.15918/j.tbit1001-0645.2022.107Multi-granularity Legal Text Matching Method for IncorporatingDomain Element KnowledgeLUO Senlin,DONG Bo,PAN Limin,WU Zhouting(School of Information and Electronics,Beijing Institute of Technology,Beijin
3、g 100081,China)Abstract:The goal of legal text matching is to quickly extract and compare element information and discover re-lated cases to ensure the uniformity of legal application.The existing methods can not make full use of priorcase knowledge of specific types,extracting a lower accuracy for
4、core elements.Most of the methods canonly perform the weight calculation of word vectors,but ignore the vector information of word meaning,sen-tence meaning and syntax,affecting the matching effect.In this paper,a multi-granularity legal text matchingmethod was proposed to incorporate domain element
5、 knowledge.Firstly,a domain knowledge base was estab-lished to accurately extract legal elements of specific case types.And then,three granularity attention mechan-isms of word,sentence and syntax character were introduced to calculate the weight of different text vectors,soas to improve the effect
6、of matching model.Experimental results show that this method can achieve the best res-ults on public datasets.Key words:text matching;legal elements;multi-granularity;domain knowledge 法律检索是智慧法庭建设的重要环节,其核心任务是法律文本匹配.法律文本匹配的目标是快速提炼对比要素信息并发现关联案件,保障同案同判.法律文本篇幅较长且要素种类众多,其匹配难点为法律要素的充分提取和向量信息的深度匹配.现有方法直接对原始
7、文本序列进行语义嵌入1,无法具象地进行要素式的案件匹配,要素信息不突出且利用不充分.现有方法通过规则匹配出法律文本中的要素信息2,通过设置阈值来判断文本相似性,该类方法所提取出的要素为部分基本法律要素,没有充分利用特定案件类型的独有要素,如民间借贷领域的利率信息、抵押信息等,另外该类方法大多没 收稿日期:2022 05 05基金项目:国家“十三五”重点研发计划(2018YFC2000300)作者简介:罗森林(1968),男,博士,教授,博士生导师,E-mail:;董勃(1996),男,硕士,E-mail:;吴舟婷(1988),女,实验师,E-mail:.通信作者:潘丽敏(1968),女,硕士,
8、高级实验师,E-mail:.第 44 卷第 3 期北 京 理 工 大 学 学 报Vol.44No.32024 年 3 月Transactions of Beijing Institute of TechnologyMar.2024有结合深度学习模型进行深度文本匹配,缺少文本向量信息的利用.存在方法将法律要素提取与深度学习模型相结合3,但面临领域先验知识不全面、忽略特定类型法律要素的问题,且模型层面仅进行词向量的权重计算,忽略字义、句义、句法的向量信息,影响匹配效果.针对当前方法存在的未能充分利用特定案件类型先验知识和仅进行词向量的权重计算,忽略字义、句义、句法向量信息的问题,本文提出一种融合领
9、域要素知识的多粒度法律文本匹配方法,该方法通过建立特定案件类型领域知识库准确提取法律要素,引入字、词、句 3 个粒度的注意力机制计算不同文本向量的权重以提升匹配模型效果.由于领域数据集资源限制,本文仅在民间借贷领域数据集上建立知识库并进行验证实验,方法可推广至其他领域的案件,并可针对每种类型案件的独有要素建立领域适用的知识库并训练对应模型.本文提出了 ETMSI 模型,主要贡献是:(1)本文提出一种融合领域要素知识的多粒度法律文本匹配方法,该方法结合基本法律要素和特定类型法律要素建立特定案件类型领域知识库,充分引入先验知识;利用字、词、句 3 个粒度注意力机制提升模型匹配效果.(2)模型在“中
10、国法研杯”司法人工智能挑战赛相似案例匹配数据集4得到最好效果.1 相关工作深度学习文本匹配包括孪生网络模型5和匹配-聚合网络模型6.孪生网络结构包含对称的两部分,两部分共享相同参数的编码器,模型关键是编码器的选择.HUANG 等7设计经典的文本匹配孪生网络结构,基于全连接神经网络进行句子编码.MUELLER等8提出基于 LSTM 的编码模型,解决语义长距离依赖的问题,但因 LSTM 的时序结构导致训练速度慢.VASWANI 等 9提出基于 Transformer 结构的编码模型,融入注意力机制来关注文本中的重要信息,摆脱时序关系限制,通过并行计算加快模型训练速度.REIMERS 等10使用 B
11、ERT11 12模型将文本映射到语义空间,结合孪生网络的特殊结构减弱 BERT 模型参数量大的局限.传统的孪生网络编码后直接进行语义相似度计算,向量之间不进行交互,导致模型对向量信息的利用能力差.匹配聚合网络添加交互聚合层,CHEN等13结合全局注意力和局部注意力,捕获更充分的交互信息.DUAN 等14引入自注意力机制提高模型匹配效果.ZHANG 等15提出 8 种匹配方式处理两个句子,生成原始句子的多重融合表示.本文将结合孪生网络模型参数量小训练速度快和匹配聚合网络向量信息利用充分的优势.近年来法律领域推出多项任务,如罪名预测16 17、阅读理解、要素识别、相似案例匹配、司法摘要18等.在法
12、律文本匹配领域,BRUNINGHAUS 等19从法律文本中抽取特征,将抽取到的特征替代原文本进行相似度计算.SARAVANAN 等20引入本体模型构建案件本体进行特征建模.RAGHAV 等21结合法律文本的段落相似性和引文信息,在候选集中找到相关匹配信息.PENG 等22提出基于解构和重构的多任务学习框架结合句子表示和显示知识.HONG 等3结合知识补充和深度学习构建模型,匹配效果有提升但要素信息的利用仍不完备.现有方法在领域要素知识引入和向量匹配机制方面有较大的改进空间:(1)现有模型仅提取部分基本法律要素,但每种类型案件都有特有法律要素,如民间借贷领域包含利率信息、抵押信息等,模型领域先验
13、知识引入不足,核心要素提取准确率低;(2)现有模型仅进行词向量的权重计算,忽略字义、句义、句法的向量信息.综上所述,针对现有法律文本匹配模型的问题,本文建立特定案件类型领域知识库,实现对基本法律要素和特定类型法律要素的充分提取,同时引入字、词、句 3 个粒度的注意力机制计算不同文本向量的权重,提升匹配模型效果.2 算法原理 2.1 算法框架a,b,ca,ba,ca,b方法的核心思想为构建领域要素知识库,充分引入法律文本先验知识,引入字、词、句 3 个粒度的注意力机制,提高文本向量信息交互效果.本文将介绍融合领域要素知识的多粒度法律文本匹配方法,模型简称为 ETMSI.模型原理图见图 1,该模型
14、包含领域要素知识库、编码层和匹配聚合层.针对三元组形式输入,使用孪生网络结构,模型对于文本和文本的处理方式一致,在后续章节中将只以文本为例介绍模型方法.领域要素知识库的构建过程为首先将民间借第 3 期罗森林等:融合领域要素知识的多粒度法律文本匹配方法299贷领域文本的要素划分为基本法律要素和特定类型法律要素两大类,其次对于每种法律要素构建领域知识库,构建完成后对于输入法律文本通过规则匹配与模糊匹配结合的方法,得到 46 维法律要素向量.a,b a=a0,a1,a2,anb=b0,b1,b2,bn编码层中包括法律要素和原始文本两部分.法律要素基于构建的领域知识库提取,原始文本则为输入的法律文本序
15、列.其中法律要素通过独热编码进行向量化处理,总维度为 46,原始文本序列经过BERT 编码器进行嵌入,总维度为 768.结合得到的编码输出和.abmamb匹 配 聚 合 层 主 要 进 行 两 篇 文 本 间 的 多 粒 度信息交互,其输入为编码层的输出 和,然后计算字、词、句粒度的注意力向量权重,匹配后得到向量和,使用双向 LSTM 来聚合语义交互信息,通过计算平均池化和最大池化将结果转化为维度固定的向量,最后通过多层感知机得到相似度预测结果.2.2 领域要素知识库基于法律文本要素式匹配原则构建特定类型领域要素知识库,使模型准确提取法律要素.民间借贷领域知识库主要分为基本法律要素和特定类型法
16、律要素,基本法律要素为大多法律文本都包含的信息,不限制案件类型;特定类型法律要素为某一具体类型案件特有的信息.需要说明的是,本文所处理的数据全部为民间借贷领域案件文本,每种类型案件的领域知识库用于训练针对该类型案件的专有模型.法律文本的结构固定且语言风格标准,同时其篇幅较长且信息复杂,基于这些特性,首先融合民间借贷领域专家知识和法律文本词频统计信息构建领域要素知识库,知识库中每种要素设置多个常见词条,详见表 1 和表 2 内容,其次借助正则匹配、模糊匹配等方式从法律文本中提取基本法律要素和特定类型法律要素,对于数字形式的法律要素如利率,包含单位和数值,需要进行计算转换来保证信息一致性,最后可提
17、取分布于法律长文本中的多种要素,并通过 one-hot 方式编码输入模型,其中基本法律要素共有 14 维,特定类型法律要素共有 32 维.表 1 列出了民间借贷领域的基本法律要素及编码维度.表 2 列出了民间借贷领域案件的特定类型法律要素及编码维度.BERT编码层匹配聚合层输出层BERTyPrediction基本法律要素(下划线部分)特定类型法律要素(圈出部分)被告1因生意缺少资金,向原告借款,双方于当日签订了一张借款合同,担保人为被告2,担保方式为连带责任保证,约定借款金额60 000元,约定月利率2%,未约定借款期限。借款后被告1支付利息至2013年4月10日,此后经原告催讨未果,双方于2
18、015年10月28日签订了还款承诺书,被告1结欠原告借款本金60 000元,利息38 400元,利息每月缴纳,原告未依约还款。BiLSTMBiLSTMb0m0bm1bmbn1mnbm0am1amaa1mnab0EbbEbtEabEccEatb1bn1bna0a0a1an1ana1an1anb1bn1bnmbma此处省略与左侧处理方式一致领域要素知识库(部分)多粒度语义交互法律文本b法律文本a法律文本cvabvapooling,vbpooling=vacvapooling,vcpooling=图 1 ETMSI 模型原理图Fig.1 Principle diagram of ETMSI mode
19、l300北 京 理 工 大 学 学 报第 44 卷 表 1 民间借贷基本法律要素及编码维度Tab.1 Basic legal elements and coding dimensionality in pub-lic debit and credit基本法律要素说明维度法定代表人或自然人借贷双方分别标注4涉及人数借贷双方分别标注2省份信息省份编号1借贷规模原始数字信息1借贷日期时间戳1借贷利率原始利率信息1参与庭审是否出席庭审2委托代理人是否委托代理人2总计14 表 2 民间借贷特定类型法律要素及编码维度Tab.2 Legal elements and coding dimensionalit
20、y of specifictypes in public debit and credit特定类型法律要素说明维度连带责任保证或抵押或无担保3个类别3借贷目的:生意需要、生活需要、资金周转和其他4个类别4还款证明:合同、欠条、流水、抵押、聊天记录和其他6种证明形式6利率区间0,12,24,36划分区间4约定年利率是否有约定2高利贷是否为高利贷2贷款法律效力是否具有法律效力2债权转让是否存在2涉及金融机构是否涉及2还款情况:无还款、已还款和其他还款3种情况3讨债情况是否催讨2总计32 2.3 编码层EbaEtaa0a0 a0 a0 ai使用独热编码和 BERT 模型分别对法律要素和原始文本进行编
21、码.首先,对于领域要素知识库提取的法律要素,通过独热编码进行向量化,每个要素的编码向量的维度对应其类别的数量.对于本身为数字形式的要素则保留其原始数值,不做编码处理.基本法律要素合并得到,特定类型法律要素合并得到,两部分合并得到法律要素编码,的维度为 46.通过全连接层转换其维度得到法律要素向量,以保证法律要素编码可以与 BERT 向量编码进行组合.拼接和 BERT 编码输出,编码公式如式(1)所示.a0=W1a0+q1(1)W1 Rhdda0h aiq1式中:;为向量的维度;为向量的维度;为残差.a1,a2,an a1,a2,an使用 BERT 对原始文本序列进行嵌入得到.BERT 模型结合
22、双向 Transfor-mer 编码器、自注意力机制和位置编码,可以有效捕获句子间的长距离依赖.ai=BERT(a,i),i1,2,la(2)aai Rhla式中:为原始文本;为 BERT 输出层的序列隐藏状态向量;为输入文本 的长度.a0 a1,a2,an a法律要素和原始文本编码后,拼接法律要素向量和 BERT 编码向量获得.拼接公式如式(3)所示.a=ai,iin0,1,la(3)2.4 匹配聚合层 a,b a,c abb a ab在匹配聚合层中进行多种粒度的语义交互,从本层开始孪生网络的两部分拥有独立的权重,和之间分别进行交互.多粒度语义匹配分为两个方向,方向和反方向,设计包含字、词、
23、句 3个粒度语义交互方法,其中字向量为子词向量,接下来以方向为例进行方法说明.(1)全匹配 saihbn该匹配策略中字向量与句粒度向量交互,一篇文本的每个嵌入与另一篇文本嵌入的最后一个时间步进行匹配运算.mfulli=fm(sai,hbn;W1)(4)(2)最大池化匹配sai sbjj(1,2,n)该匹配策略中字向量互相交互,一篇文本的每个嵌入与另一篇文本的每个嵌入,进行匹配运算,并仅保留每个维度下的最大值.mmaxi=maxj(1,2,N)fm(sai,sbj;W2)(5)maxj(1,2,N)其中表示对主元素相乘取最大值.(3)细节匹配haihbj该匹配策略中,对两篇文本的每个词嵌入和分别
24、计算余弦相似度.i,j=cos(hai,hbj)j=1,2,N(6)haj i,j的权重为,通过加和所有上下文嵌入的权重,得到文本 b 的注意力向量.hmeani=nj=1 i,jhbjnj=1 i,j(7)第 3 期罗森林等:融合领域要素知识的多粒度法律文本匹配方法301ahai最后,文本 的每个上下文嵌入与对应的注意力向量匹配.matti=fm(hai,hmeani;W3)(8)(4)最大细节匹配该策略与细节匹配策略基本相似.不同点为选择最大余弦相似度的上下文嵌入作为注意力向量来代替所有上下文嵌入的权重加和.ama4 种语义交互策略应用到文本 的每个时间步,拼接生成的 4 个向量得到匹配向
25、量.之后将法律文本匹配信息进行聚合,使用的模型结构为双向LSTM.LSTM 是时序编码器,引入门控机制来控制特征的记忆和遗忘,可以捕获序列间的长距离依赖.双向 LSTM 则包含两个方向的 LSTM,信息获取更全面.vai=BiLSTM(f(ma,i),i0,1,la(9)vbj=BiLSTM(f(mb,j),j0,1,lb(10)mambfReLUvavbvab式中:和为匹配层输出的拼接向量;为全连接层,使用激活函数来避免过拟合并减少模型参数量.计算和的平均池化和最大池化,并组合得到向量减少模型参数规模.平均池化的数学表达式为vaavg=lai=0vaila,vbavg=lbj=0vbjlb(
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 融合 领域 要素 知识 粒度 法律 文本 匹配 方法
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。