分销赏收藏举报申诉 / 6

立即下载开通VIP

当前位置：首页 > 学术论文 > 论文指导/设计 > 基于BERT-CRF模型的火灾事故案例实体识别研究.pdf

基于BERT-CRF模型的火灾事故案例实体识别研究.pdf

上传人：自信****多点

文档编号：1872584

上传时间：2024-05-10

格式：PDF

页数：6

大小：1.91MB

《基于BERT-CRF模型的火灾事故案例实体识别研究.pdf》由会员分享，可在线阅读，更多相关《基于BERT-CRF模型的火灾事故案例实体识别研究.pdf（6页珍藏版）》请在咨信网上搜索。

1、消防科学与技术2023年 11 月第 42 卷第 11 期消防设备研究基于 BERT-CRF模型的火灾事故案例实体识别研究关斯琪1,2,3,董婷婷1,2,3,万子敬1,2,3,何元生1,2,3（1.应急管理部天津消防研究所，天津 300381；2.工业与公共建筑火灾防控技术应急管理部重点实验室，天津 300381；3.天津市消防安全技术重点实验室，天津 300381）摘要：为实现火灾事故调查档案的关键信息抽取，提出一种基于 BERT-CRF 模型的文本命名实体识别方法。通过对161 篇事故报告进行实体标注及数据增强，构建了火灾事故文本语料集；基于 BERT预训练模型，对语料集中的句子序列进行双

2、向特征提取，深度挖掘事故文本上下文的语义信息；结合CRF 模型，充分考虑标签转移规则，对关键实体进行预测。试验表明：本文方法在火灾事故案例实体识别任务中的精确率、召回率以及 F1值分别为 76.36%、86.19%、80.97%，优于 BERT 和BERT-BiLSTM-CRF 模型，且训练时长较 BERT-BiLSTM-CRF 模型缩短 61 s。本文方法可为火灾调查知识库、案卷编制等下游系统提供准确的实体构建服务。关键词：命名实体识别；BERT-CRF；火灾事故；消防信息；火灾事故调查档案；语料集；火灾事故文本中图分类号：X928.7；TP312 文献标志码：A 文章编号：1009-002

3、9（2023）11-1529-06火灾事故调查案卷分析可为火灾防治提供重要的参考信息，如何从案卷文本中提取关键信息历来是公共安全领域的热门话题。火灾调查报告数据随着技术能力与规程的复杂化，逐渐形成了数量与多样性兼具的数据资源，以往人工处理信息的做法开始不适应当前工作需要，亟待自动化手段来辅助人工。自然语言处理技术在司法领域取得了很大的成功，其在火灾调查领域理应发挥更为重要的作用。命名实体识别技术（Named Entity Recognition，NER）作为自然语言处理领域的一项基础研究1，可以通过识别人名、地名、组织机构以及领域实体等，实现关键信息的抽取，为自然语言处理的诸多下游任务，如知识

4、图谱、问答系统、推荐系统的研究和构建奠定基础。早期的 NER 实现方法可以分为基于规则的方法和基于统计机器学习的方法2。前者根据实际任务需要，手动设计大量特定领域的规则模板用以匹配命名实体，这种方法通常费时费力且难以迁移到其他领域应用，通用性差。基于统计机器学习的方法将 NER 任务转化为序列标注任务，常用的方法包括隐马尔可夫链、支持向量机、条件随机场等。该方法在通用性上有一定的提高，逐渐成为 NER 任务的主流方法，但其对语料库的依赖程度也很大。近年来，深度学习技术发展迅猛，其可以不依赖复杂的特征工程和丰富的领域知识，获取数据中的隐藏信息3。目前，已成为直接从数据中学习特征表示的有力策略，并

5、在自然语言处理领域有良好的表现。因此，基于深度学习的命名实体识别技术受到了广泛关注，雷松泽等4通过多特征嵌入的方法提取医学文本的特征向量，并将其输入到双向长短期记忆网络 BiLSTM 和自适应图卷积网络中，解决实体识别中语义信息获取不全面的问题。吴建华等5基于 BiLSTM 和条件随机场 CRF模型，融合分类分层时空信息标注体系，实现对微博数据中灾害事故的细粒度时空实体识别。王洁等6提出了一种基于机器阅读理解的 BiLSTM-BiDAF 命名实体识别模型 MRC-NER，充分考虑全文语境、文本和实体间的语义关联以及实体位置的约束，并在电子病历数据集中进行了验证。2018 年谷歌提出的基于 Tr

6、ansformer 的双向编码 BERT 预训练语言模型7，在自然语言领域的诸多任务中取得了优异成绩，随后，逐渐有许多学者将其应用于命名实体识别任务中，提高了实体抽取的准确性。如陈鹏等8提出基于 BERT-BiLSTM-CRF的改进模型，并将其应用至电力设备缺陷文本中，有效地识别出非结构化缺陷文本中的相关命名实体。刘斐等9建立 BERT-BiLSTM-CRF 混合模型，并引入双重注意力机制，在词和字符集别上进行特征抽取，解决一词多义问题的同时，提高了文本识别和分类的准确度。王权于等10设计构建了一个小规模的岩土工程命名实体语料库，并将双向门限循环单元 BiGRU、B

7、ERT 和 CRF 模型相结合，在语料库中训练，最终，通过与基线模型 BiLSTM-CRF 和其他预训练模型比较发现，该模型在小规模语料岩土工程命名实体识别方面效果更优。BOUDJELLAL N 等11基于单语言的 BERT 模型在阿拉伯语的小型生物医学数据集中训练，试验结果表明，该模型识别阿拉伯语文本数据中生物医学命名实体的 F1值达到 85%。综上所述，命名实体识别任务在医学、法律、军事、电力等垂直领域已产生相关应用12-15，但消防领域的优质语料集数量少、规模小，需要应对小样本学习等问题，现有方法仍需要改进才可应用于本领域。本文基于 BERT 模型来研究火灾事故命名实体识别方法。首先理顺

8、火灾事故调查业务需求，建立语料库和标签体系；然后使用 BERT 模型完成词嵌入表示，并获取文本语句的上下文语义信息，通过 CRF 模型计算出实体基金项目：应急管理部天津消防研究所基科费项目（2022SJ22，2023SJ08）1529Fire Science and Technology,November 2023,Vol.42,No.11标签的预测结果；最后，在本文构建的增强火灾事故语料集中进行验证。1火灾事故文本数据处理总体来说，火灾事故方面的中文公开语料集相对较少。如上海大学建立的中文突发事件语料集 CEC16，包含了地震、火灾、交通事故、恐怖袭击以及食物中毒 5类事件的相关新闻报道，但

9、火灾类数据仅 75条。本文首先构建了火灾事故调查报告的语料集，共包含 161 篇优质文档。语料来源为从各地的应急管理局网站、火灾类书籍、政府公众号等官方渠道收集的自 2010年以来的火灾事故调查报告及事故分析报告。通过对语料集进行文本格式转换，去除文本中多余的空白符和非法字符，修改错误语法，最终得到的文本内容涵盖火灾事故的事故经过、场所概况、事故原因等关键信息。为了丰富火灾事故语料数据，在上述标注的 161篇事故报告基础上，通过基于模板的文本语料增强方法，对原始训练数据进行处理，分析句子结构，保留句子中的非实体部分，并随机生成对应类别的实体数据填充句子模板，实现语料集的扩充。1.1实体标签的构

10、建结合本文重点研究对象，即火灾事故调查报告的文章结构及内容特征，依据标准规范、法律法规、指南等专业文献对火灾事故全过程关键要素标签分类的规范要求，参考全国火灾与警情统计系统的标签体系，最后，根据实际消防情报分析及火灾调查工作中对火灾事故历史相似案例中关键要素的关注度，选择围绕事故发生场所、事故原因、救援过程构建火灾事故标签体系。最终，本文确定的火灾事故案例实体类别，包括火灾时间、地点、人员、组织机构、火灾损失、标准法规、火灾性质共 7 类。如表 1所示。1.2语料集的构建及处理方法使用 Doccano 工具，采用 BIO 方式对语料进行标注。B 表示实体的词首字符，I表示实体的中间及结尾字符，

11、O表示不属于实体的字符。表 2为标注示例。2基于 BERT-CRF的模型训练火灾事故案例实体识别任务是指从火灾事故调查报告构成的文本语料中，识别属于火灾事故关键要素的词语，并按照表 1 中的火灾事故案例实体标签种类准确分类。火灾事故案例实体识别模型应从例句中提取出火灾时间、地点、火灾性质以及火灾损失，共 4类火灾事故案例实体。例如，在文字“2020年 12月 19日 0时 46分，位于绥化市安达市万宝山镇的安达市海纳贝尔化工有限公司发表 1火灾事故案例实体标签Table 1Fire accident entity labels实体名称火灾时间火灾地点相关人员组织机构火灾损失标准法规火灾性质开始

12、标签B-DATETIMEB-LOCB-PERB-ORGB-LOSSB-LAWB-NATURE内部标签I-DATETIMEI-LOCI-PERI-ORGI-LOSSI-LAWI-NATURE表 2标注示例Table 2Annotation example语料2017年11月18日18时09分左实体标签B-DATETIMEB-DATETIMEB-DATETIMEB-DATETIMEB-DATETIMEB-DATETIMEB-DATETIMEB-DATETIMEB-DATETIMEB-DATETIMEB-DATETIMEB-DATETIMEB-DATETIMEB-DATETIMEB-DATETIME

13、B-DATETIMEB-DATETIMEB-DATETIME语料右，大兴区西红门镇新建二村一幢建筑发实体标签B-DATETIMEOB-LOCB-LOCB-LOCB-LOCB-LOCB-LOCB-LOCB-LOCB-LOCB-LOCB-LOCOOOOO语料生火灾，事故造成19人死亡8人受伤实体标签OOOOOOOOB-LOSSB-LOSSB-LOSSB-LOSSB-LOSSB-LOSSB-LOSSB-LOSSB-LOSS1530消防科学与技术2023年 11 月第 42 卷第 11 期生一起爆炸事故，造成 3人死亡、4人受伤，直接经济损失2 045 万元。”中，模型将提取出火灾时间为 2020 年

14、 12 月19 日 0 时 46 分，地点为绥化市安达市万宝山镇和安达市海纳贝尔化工有限公司，火灾性质为爆炸事故，火灾损失为 3人死亡，4人受伤，直接经济损失 2 045万元。BERT 模型是一个以双向 Transformer的编码器作为特征提取器的预训练模型7，其内部结构由多个 Transformer层堆叠构成，通过在超大规模数据集上进行训练，已能够在大部分的 NLP 任务中取得很好的效果。应用BERT 模型的双向编码能力，获取词语间的关联关系和句子间的上下文语义信息，实现对火灾事故文本数据的双向特征提取，减少火灾领域语料数据集规模小对训练结果造成的负面影响，同时，结合条件随机场 CRF实现

15、对标签序列预测结果的合理约束。模型框架结构如图 1所示。2.1BERT模型特征提取以句子为单位作为 BERT 模型的输入，语料集通过空格换行符对句子进行划分，将句子输入记为Text=c1，c2，cn(n max_len)，其中cn代表句子中的单个文字，n为一个句子中包含的文字数，max_len为句子最大长度。对每条句子进行预处理，当句子长度超过max_len时，对句子做截断处理，当句子长度小于max_len时，则通过 PAD 标签对句子长度进行补全，并在句首添加 CLS 标签，句尾添加 SEP 标签与下一条句子进行分隔。BERT模型的词嵌入层对预处理后的输入句子序列进行计算得到结果，如式（1）

16、所示。Eword=Etok+Eseg+Epos（1）式中：Etok为符号嵌入；Eseg为片段嵌入；Epos为位置嵌入。按照文字元素对三者进行相加得到句子输入的最终词向量表示，如图 2所示。BERT 模型的预训练任务包括文字级别的 Masked LM 任务和句子级别的 Next Sentence Prediction 任务。Masked LM 任务设定为，对输入序列 15%的文字进行遮罩，其中 80%的文字通过 MASK 符号替换，10%的文字被其他文字符号替换，10%的文字不替换。模型基于序列中未被遮罩文字的上下文预测被遮罩的原文字，从而学习文字间的关联关系。Next Sent

17、ence Prediction 任务执行过程中，作为输入的句子序列集合不完全保留原语料集中的语句顺序，而是由随机抽取 50%的句子和保留原始顺序的 50%句子共同构成，通过学习句子之间的上下文关系，获得语句的情境信息。BERT 模型在本文的火灾事故案例实体识别任务中，能够同时实现文字级别和句子级别的丰富特征提取，再经过多头注意力机制和微调训练得到每个文字位置对应标签序列的预测向量。2.2CRF解码层由于 BERT 模型输出的标签序列预测结果未考虑标签间的变换规则，在 BERT 模型之后使用条件随机场CRF 优化计算结果。应用 CRF 模型需要先定义发射矩阵和状态转移矩阵，本文规定发射矩阵为 B

18、ERT 模型的输出结果，状态转移矩阵为标签之间的转移概率。将转移概率与实体标签顺序常识相结合，对于本文使用的 BIO 体系，标签间的变换规则有：B 标签后不会存在 B标签；I标签前不会出现 O 标签。基于 CRF对句子序列 X计算实体标签序列 Y的概率，如式（2）式（4）所示。A=iTjJitj(x,Ii-1,Ii,i)（2）B=iTlLlsl(x,Ii,i)（3）P(Y|X)=1Z(x)exp(A+B)（4）式中：i代表句子序列x中第i个文字；Ii代表文字i对应的标注序列；Ii-1代表文字i-1对应的标注序列；i为 CRF特征转移权重；tj代表文字i的标签从Ii-1转移到Ii的特征；l为发射

19、特征权重；sl为文字i处的发射特征。式（2）的计算结果为句子序列x中所有文字的标签转移概率和。GRF解码层BERT编码层输入序列TAG1TAG2TAG3TAG4TAG5CRFBERTTrmTrmTrmTrmTrmTrmTrmTrmTrmTrmC1C2C3C4C5图 1BERT-CRF模型结构示意图Fig.1Structure of BERT-CRF modelInputTokenEmbeddings+SegmentEmbeddings+PositionEmbeddingsInputTokenEmbeddings+SegmentEmbeddings+PositionEmbeddingsCLS 事

20、发建筑内共有单位9家 SEPECLSE事E发E建E筑E内E共E有E单E位E9E家ESEPEAEAEAEAEAEAEAEAEAEAEAEAEAE0E1E2E3E4E5E6E7E8E9E10E11E12地下部分为在建中型冷库SEPE地E下E部E分E为E在E建E中E型E冷E库ESEPEBEBEBEBEBEBEBEBEBEBEBEBE13E14E15E16E17E18E19E20E21E22E23E24图 2BERT模型词向量表示Fig.2Word embedding representation of BERT model1531Fire Science and Technology,Novembe

21、r 2023,Vol.42,No.11式（3）的计算结果为句子序列x中所有文字的发射特征概率和。式（4）通过对计算结果进行归一化处理，得到标签序列概率，选择具有最优概率值的标签作为模型预测结果。图 3为 CRF层的标签预测示意图。3试验3.1试验设置试验的硬件环境基于 12th Gen Intel（R）Core（TM）i9-12900H 2.50 GHz 处理器，32 GB 内存以及英伟达 GeForce RTX 3080Ti Laptop 显卡。软件环境基于 Windows 11 操作系统，编程语言使用支持 cuda 11.5 版本的pytorch 1.11框架。选择 BERT

22、和 BERT-BiLSTM-CRF 作为基线模型，各模型的训练参数如表 3所示。其中，BERT-CRF模型以及 BERT-BiLSTM 模型的学习率采用分段方式设置，对已经训练出较好参数的 BERT 模型层，采用较小学习率的 3exp（-5）避免参数波动过大导致识别效果下降，而对于初始训练的下层模型 CRF 以及 BiLSTM-CRF 模型，为加快训练速度，提高训练效果，设置为稍大学习率exp（-3）。并使用精确率、召回率以及 F1作为各模型的评价指标。3.2对比试验本文构建的火灾事故语料集共包含数据 21 418 条，按照 8：1：1进行划分，形成训练集、验证集以及测试集，其中，训

23、练集包含 17 134条数据，验证集和测试集分别包含2 142条数据。计算各个模型对火灾事故案例实体识别的精确率 P、召回率 R 以及 F1值并分析试验结果，试验数据如表 4表5所示。表 4 表明，在学习本文构建的火灾事故语料集后，BERT-CRF 模型对火灾事故案例实体识别的精确率、召回率和 F1值相比于其他两种模型，均有提高；BERT-CRF 模型的精确率高出 BERT-BiLSTM-CRF 模型1.07%，高出 BERT 模型 3.41%。召回率高出 BERT-BiLSTM-CRF 模型 2.23%，高出 BERT 模型 4.05%。F1值高出 BERT-

24、BiLSTM-CRF 模型 1.58%，高出 BERT模型 3.7%。BERT-CRF 模型在试验中优于 BERT-BiLSTM-CRF 的原因主要为：一是数据集的特点，本文所述语料通过模板增强的方法，对数据集进行了扩充，BiLSTM 获取文本上下文语义特征的能力在本文语料集中没有发挥明显优势；二是 BERT 模型基于多层 Transformer编码器结构，其对单个文字特征提取的能力远超过 BiLSTM 模型。所以在本文的试验中，BERT-CRF 模型要略优于BERT-BiLSTM-CRF模型。表 5 表明，BERT-CRF 相较于 BERT-

25、BILSTM-CRF 模型的训练更为高效，试验中的训练时间减少了61 s。表 6 表 8 分别为本文 BERT-CRF 模型、BERT-BiLSTM-CRF 模型和 BERT 模型识别火灾事故各类实体标签的精确率、召回率以及 F1值，从中可以看到，各类模型对火灾性质实体的识别效果普遍准确，且本文模型相比于 BERT 模型在其他实体标签的识别任务中均有明显提高，相比于 BERT-BiLSTM-CRF 模型，对标准法规实体标签的识别中体现出明显优势，精确度提高10.36%，召回率提高 7.14%，F1值提高 9.01%。综合以上试验数据可认为，BERT

26、-CRF 模型能够在本文构建的火灾事故语料集中较准确地识别火灾领域相关实体，且模型的整体指标优于其他两种基线模型。目前，该方法已初步运用于从大量消防情报数据和火灾事文本序列本事故为一般火灾责任事故预测标签实体标签OOOOBIIIIIIIB-NATUREI-NATUREO图 3CRF层标签预测Fig.3Label prediction of CRF layer表 3试验参数Table 3Experimental parameters参数自注意力头隐藏层训练语句最大长度批处理大小学习率优化器迭代次数BERT1212128243exp(-5)Adamw10BERT-BiLSTM-CRF1212128

27、24BERT：3exp(-5)BiLSTM-CRF：exp(-3)Adamw10BERT-CRF121212824BERT：3exp(-5)CRF：exp(-3)Adamw10表 4不同模型的试验数据Table 4Experimental data for different models模型PRF1BERT0.729 50.821 40.772 7BERT-BiLSTM-CRF0.752 90.839 60.793 9BERT-CRF0.763 60.861 90.809 7表 5不同模型的训练时长Table 5Training time of different models模型耗时/sB

28、ERT808BERT-BiLSTM-CRF1 403BERT-CRF1 3421532消防科学与技术2023年 11 月第 42 卷第 11 期故报告数据中自动提取关键信息，为火灾事故知识图谱构建提供了数据基础，并在长文本数据分析和摘要生成应用中，提供了快速定位并准确提取涵盖重要信息语句的技术支撑。4结论针对火灾领域语料集规模小、长文本的上下文语义信息跨度大，进而导致实体识别效果不佳的问题，本文通过数据增强手段，对事故文本数据量进行扩充，设计火灾事故领域实体标签，对数据进行标注，生成火灾事故报告文本数据集。本文方法可总结为：首先使用 BERT 模型对文本数据进行特征提取，在充分考虑文字级别和

29、句子级别的上下文语义信息的基础上，预测文本数据对应的实体标签，再基于 CRF模型，融入实体标签的转移规则，对 BERT模型得到的预测结果做进一步的优化调整。根据本文所述试验，本文使用的 BERT-CRF 模型可以准确识别火灾事故文本数据集中的命名实体，且与命名实体识别领域常用的 BERT 模型和 BERT-BiLSTM-CRF 模型相比，精确率、召回率以及 F1指标均有所提高。说明本文方法在火灾事故案例实体识别和分类方面有较好效果，且该模型计算输出的实体识别结果可为火灾事故知识图谱的构建提供基础。未来将围绕火灾事故文本数据集的扩充以及 NLP 模型的计算优化做进一步研究，为火灾大数据领域提供更

30、理想的研究工具。参考文献：1 张汝佳,代璐,王邦,等.基于深度学习的中文命名实体识别最新研究进展综述J.中文信息学报,2022,36(6):20-35.2 康怡琳,孙璐冰,朱容波,等.深度学习中文命名实体识别研究综述J.华中科技大学学报(自然科学版),2022,50(11):44-53.3 LI J,SUN A,HAN J,et al.A survey on deep learning for named entity recognitionJ.IEEE Transactions on Knowledge and Data Engineering,2022,34(1):50-70.4 雷松泽,

31、刘博,王瑜菲,等.结合多特征嵌入和多网络融合的中文医疗命名实体识别J.电子与信息学报,2023,45(8):3032-3039.5 吴建华,胡烈云,赵宇,等.基于 BiLSTM-CRF 与分类分层标注的微博中突发事件时空信息精细识别方法J.地理与地理信息科学,2021,37(3):1-8.6 王洁,夏晓明.基于机器阅读理解的 BiLSTM-BiDAF 命名实体识别J.华南理工大学学报(自然科学版),2022,50(12):80-88.7 DEVLIN J,CHANG MW,LEE K,et al.BERT:Pre-training of deep bidirectional transform

32、ers for language understandingC/Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies,Minneapolis Association for Computational Linguistics:2019.8 陈鹏,邰彬,石英,等.融合 BERT、双向长短记忆网络和条件随机场的电力设备缺陷文本实体抽取J/OL.电网技术:1-102023-

33、02-26.https:/doi.org/10.13335/j.1000-3673.pst.2022.1999.9 刘斐,文中,吴艺.基于 BERT-BILSTM-CRF 模型的电力行业事故文本智能分析J.中国安全生产科学技术,2023,19(1):209-215.10 王权于,李振华,涂志鹏,等.基于 BERT-BiGRU-CRF 模型的岩土工程实体识别J.地球科学,2023,48(8):3137-3150.11 BOUDJELLAL N,ZHANG H P,KHAN A,et al.ABioNER:A BERT-based model for arabic biomedical named

34、-entity recognitionJ.Complexity,2021:6633213.12 TOHTI T,ABDURXIT M,HAMDULLA A.Medical QA oriented multi-task learning model for question intent classification and named entity recognitionJ.Information,2022,13(12):581-581.13 HAN P F,LI X,WANG X,et al.Exploring the effects of drug,disease,and protein

35、dependencies on biomedical named entity recognition:A comparative analysisJ.Frontiers in Pharmacology,2022,13.14 WANG Z L,WU Y F,LEI P B,et al.Named entity recognition method of brazilian legal text based on preJ.Journal of Physics:Conference Series,2020,1550(3):032149.15 LU Y W,YANG R P,JIANG X P,e

36、t al.A military named entity rec表 6BERT-CRF模型识别各类火灾事故案例实体的结果Table 6Results of BERT-CRF model to identify fire accident entities实体标签火灾时间火灾地点相关人员组织机构火灾损失标准法规火灾性质P0.711 50.872 20.809 10.500 00.883 90.709 70.985 3R0.948 70.838 00.899 00.775 20.951 40.785 70.985 3F10.813 20.854 80.851 70.607 90.916 40.74

37、5 80.985 3表 7BERT-BiLSTM-CRF模型识别各类火灾事故案例实体的结果Table 7Results of BERT-BiLSTM-CRF model to identify fire accident entities实体标签火灾时间火灾地点相关人员组织机构火灾损失标准法规火灾性质P0.773 20.852 40.819 30.485 70.891 90.606 11.000 0R0.961 50.793 80.885 50.790 70.916 70.714 30.985 3F10.857 10.822 00.851 10.601 80.904 10.655 70.992

38、 6表 8BERT模型识别各类火灾事故案例实体的结果Table 8Results of BERT model to identify fire accident entities实体标签火灾时间火灾地点相关人员组织机构火灾损失标准法规火灾性质P0.648 60.820 80.789 00.477 80.836 60.625 01.000 0R0.923 10.802 00.868 70.709 30.888 90.714 31.000 0F10.761 90.811 30.826 90.571 00.862 00.666 71.000 01533Fire Science and Technol

39、ogy,November 2023,Vol.42,No.11ognition method based on pre-training language model and BiLSTM-CRFJ.Journal of Physics:Conference Series,2020,1693(1):012161.16 中文突发事件语料库EB/OL.2023-09-26https:/ accident case named entity recognition based on BERT-CRF modelGuan Siqi1,2,3,Dong Tingting1,2,3,Wan Zijing1,

40、2,3,He Yuansheng1,2,3(1.Tianjin Fire Science and Technology Research Institute of MEM,Tianjin 300381,China;2.Laboratory of Fire Protection Technology for Industry and Public Building,Ministry of Emergency Management,Tianjin 300381,China;3.Tianjin Key Laboratory of Fire Safety Technology,Tianjin 3003

41、81,China)Abstract:Aiming at the key information extraction from fire accident investigation files,we propose a BERT-CRF based named entity recognition method for obtaining information such as accident location,cause and effect,safety measure,etc.We firstly construct a fire accident text corpus by an

42、notating 161 accident reports and using a data augmentation method on the labeled data.Then according to BERT pre training model,the bidirectional feature extraction method is performed on the sentence sequences in the corpus.Extracted information of the accident text context is further predicted as

43、 the key entities by CRF model and the entity label transfer rules.Experiments show that the precision,recall and F1 values of the BERT-CRF model in the fire accident case named entity recognition task are 76.36%,86.19%,and 80.97%,respectively,which are better than BERT and BERT-BiLSTM-CRF models,an

44、d the training time is 61 seconds shorter than that of model BERT-BiLSTM-CRF.Our final model can provide accurate entity construction services for downstream systems such as fire investigation knowledge base and file compilation.Key words:named entity recognition;BERT-CRF;fire accident;fire information;fire investigation file;text corpus;fire accident text作者简介：关斯琪（1994-），女，陕西渭南人，应急管理部天津消防研究所助理研究员，主要从事计算机技术方面的研究工作，天津市南开区卫津南路 110号，300381。收稿日期：2023-04-06（责任编辑：毛星）1534

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档保存到电脑，查找使用更方便

10 金币 0人已下载

申诉本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请申请举报、认领或删除 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 基于 BERT CRF 模型火灾事故案例实体识别研究

咨信网温馨提示：
1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，个别因单元格分列造成显示页码不一将协商解决，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时私信或留言给本站上传会员【自信****多点】，需本站解决可联系【微信客服】、【 QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”（推荐），意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：4008-655-100；投诉/维权电话：4009-655-100。

关于本文

本文标题：基于BERT-CRF模型的火灾事故案例实体识别研究.pdf
链接地址：https://www.zixin.com.cn/doc/1872584.html

自信****多点

内容提供者

实名认证

查看上传人更多文档

部分上传会员的收益排行 01、路***（￥15400+），
02、曲****（￥15300+），
03、wei****016（￥13200+）,
04、大***流（￥12600+），
05、Fis****915（￥4200+），
06、h****i（￥4100+），
07、Q**（￥3400+），
08、自******点（￥2400+），
09、h*****x（￥1400+），
10、c****e（￥1100+）,
11、be*****ha（￥800+），
12、13********8（￥800+）。

相似文档

自信AI助手