基于BERT-CRF模型的火灾事故案例实体识别研究.pdf
《基于BERT-CRF模型的火灾事故案例实体识别研究.pdf》由会员分享,可在线阅读,更多相关《基于BERT-CRF模型的火灾事故案例实体识别研究.pdf(6页珍藏版)》请在咨信网上搜索。
1、消防科学与技术2023年 11 月第 42 卷第 11 期消防设备研究基于 BERT-CRF模型的火灾事故案例实体识别研究关斯琪1,2,3,董婷婷1,2,3,万子敬1,2,3,何元生1,2,3(1.应急管理部天津消防研究所,天津 300381;2.工业与公共建筑火灾防控技术应急管理部重点实验室,天津 300381;3.天津市消防安全技术重点实验室,天津 300381)摘要:为实现火灾事故调查档案的关键信息抽取,提出一种基于 BERT-CRF 模型的文本命名实体识别方法。通过对161 篇事故报告进行实体标注及数据增强,构建了火灾事故文本语料集;基于 BERT预训练模型,对语料集中的句子序列进行双
2、向特征提取,深度挖掘事故文本上下文的语义信息;结合CRF 模型,充分考虑标签转移规则,对关键实体进行预测。试验表明:本文方法在火灾事故案例实体识别任务中的精确率、召回率以及 F1值分别为 76.36%、86.19%、80.97%,优于 BERT 和BERT-BiLSTM-CRF 模型,且训练时长较 BERT-BiLSTM-CRF 模型缩短 61 s。本文方法可为火灾调查知识库、案卷编制等下游系统提供准确的实体构建服务。关键词:命名实体识别;BERT-CRF;火灾事故;消防信息;火灾事故调查档案;语料集;火灾事故文本中图分类号:X928.7;TP312 文献标志码:A 文章编号:1009-002
3、9(2023)11-1529-06火灾事故调查案卷分析可为火灾防治提供重要的参考信息,如何从案卷文本中提取关键信息历来是公共安全领域的热门话题。火灾调查报告数据随着技术能力与规程的复杂化,逐渐形成了数量与多样性兼具的数据资源,以往人工处理信息的做法开始不适应当前工作需要,亟待自动化手段来辅助人工。自然语言处理技术在司法领域取得了很大的成功,其在火灾调查领域理应发挥更为重要的作用。命名实体识别技术(Named Entity Recognition,NER)作为自然语言处理领域的一项基础研究1,可以通过识别人名、地名、组织机构以及领域实体等,实现关键信息的抽取,为自然语言处理的诸多下游任务,如知识
4、图谱、问答系统、推荐系统的研究和构建奠定基础。早期的 NER 实现方法可以分为基于规则的方法和基于统计机器学习的方法2。前者根据实际任务需要,手动设计大量特定领域的规则模板用以匹配命名实体,这种方法通常费时费力且难以迁移到其他领域应用,通用性差。基于统计机器学习的方法将 NER 任务转化为序列标注任务,常用的方法包括隐马尔可夫链、支持向量机、条件随机场等。该方法在通用性上有一定的提高,逐渐成为 NER 任务的主流方法,但其对语料库的依赖程度也很大。近年来,深度学习技术发展迅猛,其可以不依赖复杂的特征工程和丰富的领域知识,获取数据中的隐藏信息3。目前,已成为直接从数据中学习特征表示的有力策略,并
5、在自然语言处理领域有良好的表现。因此,基于深度学习的命名实体识别技术受到了广泛关注,雷松泽等4通过多特征嵌入的方法提取医学文本的特征向量,并将其输入到双向长短期记忆网络 BiLSTM 和自适应图卷积网络中,解决实体识别中语义信息获取不全面的问题。吴建华等5基于 BiLSTM 和条件随机场 CRF模型,融合分类分层时空信息标注体系,实现对微博数据中灾害事故的细粒度时空实体识别。王洁等6提出了一种基于机器阅读理解的 BiLSTM-BiDAF 命名实体识别模型 MRC-NER,充分考虑全文语境、文本和实体间的语义关联以及实体位置的约束,并在电子病历数据集中进行了验证。2018 年谷歌提出的基于 Tr
6、ansformer 的双向编码 BERT 预训练语言模型7,在自然语言领域的诸多任务中取得了优异成绩,随后,逐渐有许多学者将其应用于命名实体识别任务中,提高了实体抽取的准确性。如陈鹏等8提出基于 BERT-BiLSTM-CRF的改进模型,并将其应用至电力设备缺陷文本中,有效地识别出非结构化缺 陷 文 本 中 的 相 关 命 名 实 体。刘 斐 等9建 立 BERT-BiLSTM-CRF 混合模型,并引入双重注意力机制,在词和字符集别上进行特征抽取,解决一词多义问题的同时,提高了文本识别和分类的准确度。王权于等10设计构建了一个小规模的岩土工程命名实体语料库,并将双向门限循环单元 BiGRU、B
7、ERT 和 CRF 模型相结合,在语料库中训练,最终,通过与基线模型 BiLSTM-CRF 和其他预训练模型比较发现,该模型在小规模语料岩土工程命名实体识别方面效果更优。BOUDJELLAL N 等11基于单语言的 BERT 模型在阿拉伯语的小型生物医学数据集中训练,试验结果表明,该模型识别阿拉伯语文本数据中生物医学命名实体的 F1值达到 85%。综上所述,命名实体识别任务在医学、法律、军事、电力等垂直领域已产生相关应用12-15,但消防领域的优质语料集数量少、规模小,需要应对小样本学习等问题,现有方法仍需要改进才可应用于本领域。本文基于 BERT 模型来研究火灾事故命名实体识别方法。首先理顺
8、火灾事故调查业务需求,建立语料库和标签体系;然后使用 BERT 模型完成词嵌入表示,并获取文本语句的上下文语义信息,通过 CRF 模型计算出实体基金项目:应急管理部天津消防研究所基科费项目(2022SJ22,2023SJ08)1529Fire Science and Technology,November 2023,Vol.42,No.11标签的预测结果;最后,在本文构建的增强火灾事故语料集中进行验证。1火灾事故文本数据处理总体来说,火灾事故方面的中文公开语料集相对较少。如上海大学建立的中文突发事件语料集 CEC16,包含了地震、火灾、交通事故、恐怖袭击以及食物中毒 5类事件的相关新闻报道,但
9、火灾类数据仅 75条。本文首先构建了火灾事故调查报告的语料集,共包含 161 篇优质文档。语料来源为从各地的应急管理局网站、火灾类书籍、政府公众号等官方渠道收集的自 2010年以来的火灾事故调查报告及事故分析报告。通过对语料集进行文本格式转换,去除文本中多余的空白符和非法字符,修改错误语法,最终得到的文本内容涵盖火灾事故的事故经过、场所概况、事故原因等关键信息。为了丰富火灾事故语料数据,在上述标注的 161篇事故报告基础上,通过基于模板的文本语料增强方法,对原始训练数据进行处理,分析句子结构,保留句子中的非实体部分,并随机生成对应类别的实体数据填充句子模板,实现语料集的扩充。1.1实体标签的构
10、建结合本文重点研究对象,即火灾事故调查报告的文章结构及内容特征,依据标准规范、法律法规、指南等专业文献对火灾事故全过程关键要素标签分类的规范要求,参考全国火灾与警情统计系统的标签体系,最后,根据实际消防情报分析及火灾调查工作中对火灾事故历史相似案例中关键要素的关注度,选择围绕事故发生场所、事故原因、救援过程构建火灾事故标签体系。最终,本文确定的火灾事故案例实体类别,包括火灾时间、地点、人员、组织机构、火灾损失、标准法规、火灾性质共 7 类。如表 1所示。1.2语料集的构建及处理方法使用 Doccano 工具,采用 BIO 方式对语料进行标注。B 表示实体的词首字符,I表示实体的中间及结尾字符,
11、O表示不属于实体的字符。表 2为标注示例。2基于 BERT-CRF的模型训练火灾事故案例实体识别任务是指从火灾事故调查报告构成的文本语料中,识别属于火灾事故关键要素的词语,并按照表 1 中的火灾事故案例实体标签种类准确分类。火灾事故案例实体识别模型应从例句中提取出火灾时间、地点、火灾性质以及火灾损失,共 4类火灾事故案例实体。例如,在文字“2020年 12月 19日 0时 46分,位于绥化市安达市万宝山镇的安达市海纳贝尔化工有限公司发表 1火灾事故案例实体标签Table 1Fire accident entity labels实体名称火灾时间火灾地点相关人员组织机构火灾损失标准法规火灾性质开始
12、标签B-DATETIMEB-LOCB-PERB-ORGB-LOSSB-LAWB-NATURE内部标签I-DATETIMEI-LOCI-PERI-ORGI-LOSSI-LAWI-NATURE表 2标注示例Table 2Annotation example语料2017年11月18日18时09分左实体标签B-DATETIMEB-DATETIMEB-DATETIMEB-DATETIMEB-DATETIMEB-DATETIMEB-DATETIMEB-DATETIMEB-DATETIMEB-DATETIMEB-DATETIMEB-DATETIMEB-DATETIMEB-DATETIMEB-DATETIME
13、B-DATETIMEB-DATETIMEB-DATETIME语料右,大兴区西红门镇新建二村一幢建筑发实体标签B-DATETIMEOB-LOCB-LOCB-LOCB-LOCB-LOCB-LOCB-LOCB-LOCB-LOCB-LOCB-LOCOOOOO语料生火灾,事故造成19人死亡8人受伤实体标签OOOOOOOOB-LOSSB-LOSSB-LOSSB-LOSSB-LOSSB-LOSSB-LOSSB-LOSSB-LOSS1530消防科学与技术2023年 11 月第 42 卷第 11 期生一起爆炸事故,造成 3人死亡、4人受伤,直接经济损失2 045 万元。”中,模型将提取出火灾时间为 2020 年
14、 12 月19 日 0 时 46 分,地点为绥化市安达市万宝山镇和安达市海纳贝尔化工有限公司,火灾性质为爆炸事故,火灾损失为 3人死亡,4人受伤,直接经济损失 2 045万元。BERT 模型是一个以双向 Transformer的编码器作为特征提取器的预训练模型7,其内部结构由多个 Transformer层堆叠构成,通过在超大规模数据集上进行训练,已能够在大部分的 NLP 任务中取得很好的效果。应用BERT 模型的双向编码能力,获取词语间的关联关系和句子间的上下文语义信息,实现对火灾事故文本数据的双向特征提取,减少火灾领域语料数据集规模小对训练结果造成的负面影响,同时,结合条件随机场 CRF实现
15、对标签序列预测结果的合理约束。模型框架结构如图 1所示。2.1BERT模型特征提取以句子为单位作为 BERT 模型的输入,语料集通过空格换行符对句子进行划分,将句子输入记为Text=c1,c2,cn(n max_len),其中cn代表句子中的单个文字,n为一个句子中包含的文字数,max_len为句子最大长度。对每条句子进行预处理,当句子长度超过max_len时,对句子做截断处理,当句子长度小于max_len时,则通过 PAD 标签对句子长度进行补全,并在句首添加 CLS 标签,句尾添加 SEP 标签与下一条句子进行分隔。BERT模型的词嵌入层对预处理后的输入句子序列进行计算得到结果,如式(1)
16、所示。Eword=Etok+Eseg+Epos(1)式中:Etok为符号嵌入;Eseg为片段嵌入;Epos为位置嵌入。按照文字元素对三者进行相加得到句子输入的最终词向量表示,如图 2所示。BERT 模型的预训练任务包括文字级别的 Masked LM 任 务 和 句 子 级 别 的 Next Sentence Prediction 任 务。Masked LM 任务设定为,对输入序列 15%的文字进行遮罩,其中 80%的文字通过 MASK 符号替换,10%的文字被其他文字符号替换,10%的文字不替换。模型基于序列中未被遮罩文字的上下文预测被遮罩的原文字,从而学习文字间的关联关系。Next Sent
17、ence Prediction 任务执行过程中,作为输入的句子序列集合不完全保留原语料集中的语句顺序,而是由随机抽取 50%的句子和保留原始顺序的 50%句子共同构成,通过学习句子之间的上下文关系,获得语句的情境信息。BERT 模型在本文的火灾事故案例实体识别任务中,能够同时实现文字级别和句子级别的丰富特征提取,再经过多头注意力机制和微调训练得到每个文字位置对应标签序列的预测向量。2.2CRF解码层由于 BERT 模型输出的标签序列预测结果未考虑标签间的变换规则,在 BERT 模型之后使用条件随机场CRF 优化计算结果。应用 CRF 模型需要先定义发射矩阵和状态转移矩阵,本文规定发射矩阵为 B
18、ERT 模型的输出结果,状态转移矩阵为标签之间的转移概率。将转移概率与实体标签顺序常识相结合,对于本文使用的 BIO 体系,标签间的变换规则有:B 标签后不会存在 B标签;I标签前不会出现 O 标签。基于 CRF对句子序列 X计算实体标签序列 Y的概率,如式(2)式(4)所示。A=iTjJitj(x,Ii-1,Ii,i)(2)B=iTlLlsl(x,Ii,i)(3)P(Y|X)=1Z(x)exp(A+B)(4)式中:i代表句子序列x中第i个文字;Ii代表文字i对应的标注序列;Ii-1代表文字i-1对应的标注序列;i为 CRF特征转移权重;tj代表文字i的标签从Ii-1转移到Ii的特征;l为发射
19、特征权重;sl为文字i处的发射特征。式(2)的计算结果为句子序列x中所有文字的标签转移概率和。GRF解码层BERT编码层输入序列TAG1TAG2TAG3TAG4TAG5CRFBERTTrmTrmTrmTrmTrmTrmTrmTrmTrmTrmC1C2C3C4C5图 1BERT-CRF模型结构示意图Fig.1Structure of BERT-CRF modelInputTokenEmbeddings+SegmentEmbeddings+PositionEmbeddingsInputTokenEmbeddings+SegmentEmbeddings+PositionEmbeddingsCLS 事
20、发建筑内共有单位9家 SEPECLSE事E发E建E筑E内E共E有E单E位E9E家ESEPEAEAEAEAEAEAEAEAEAEAEAEAEAE0E1E2E3E4E5E6E7E8E9E10E11E12地下部分为在建中型冷库SEPE地E下E部E分E为E在E建E中E型E冷E库ESEPEBEBEBEBEBEBEBEBEBEBEBEBE13E14E15E16E17E18E19E20E21E22E23E24图 2BERT模型词向量表示Fig.2Word embedding representation of BERT model1531Fire Science and Technology,Novembe
21、r 2023,Vol.42,No.11式(3)的计算结果为句子序列x中所有文字的发射特征概率和。式(4)通过对计算结果进行归一化处理,得到标签序列概率,选择具有最优概率值的标签作为模型预测结果。图 3为 CRF层的标签预测示意图。3试验3.1试验设置试验的硬件环境基于 12th Gen Intel(R)Core(TM)i9-12900H 2.50 GHz 处理器,32 GB 内存以及英伟达 GeForce RTX 3080Ti Laptop 显 卡。软 件 环 境 基 于 Windows 11 操作系统,编程语言使用支持 cuda 11.5 版本的pytorch 1.11框架。选 择 BERT
22、 和 BERT-BiLSTM-CRF 作 为 基 线 模型,各模型的训练参数如表 3所示。其中,BERT-CRF模型以及 BERT-BiLSTM 模型的学习率采用分段方式设置,对已经训练出较好参数的 BERT 模型层,采用较小学习率的 3exp(-5)避免参数波动过大导致识别效果下降,而对于初始训练的下层模型 CRF 以及 BiLSTM-CRF 模型,为加快训练速度,提高训练效果,设置为稍大学习率exp(-3)。并使用精确率、召回率以及 F1作为各模型的评价指标。3.2对比试验本文构建的火灾事故语料集共包含数据 21 418 条,按照 8:1:1进行划分,形成训练集、验证集以及测试集,其中,训
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 BERT CRF 模型 火灾事故 案例 实体 识别 研究
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。