基于BERT的施工安全事故文本命名实体识别方法_孙文涵.pdf
《基于BERT的施工安全事故文本命名实体识别方法_孙文涵.pdf》由会员分享,可在线阅读,更多相关《基于BERT的施工安全事故文本命名实体识别方法_孙文涵.pdf(7页珍藏版)》请在咨信网上搜索。
1、20电视技术 第 47 卷第 1 期(总第 566 期)PARTS&DESIGN器件与设计文献引用格式:孙文涵,王俊杰.基于 BERT 的施工安全事故文本命名实体识别方法 J.电视技术,2023,47(1):20-26.SUN W H,WANG J J.Named entity recognition method of construction safety accident text based on BERTJ.Video Engineering,2023,47(1):20-26.中图分类号:TP311.1 文献标识码:A DOI:10.16280/j.videoe.2023.01.00
2、5基于 BERT 的施工安全事故文本命名实体识别方法孙文涵,王俊杰(中国海洋大学 工程学院,山东 青岛 266400)摘要:为解决传统施工安全管理中对事故报告信息分析效率低的问题,利用自然语言处理(Natural Language Processing,NLP)技术,提出基于双向编码器表示(Bidirectional Encoder Representations from Transformers,BERT)的施工安全事故文本命名实体识别方法。以自建的施工安全事故领域实体标注语料数据集为研究对象,首先利用 BERT 预训练模型获取动态字向量,然后采用双向长短时记忆网络-注意力机制-条件随机场
3、(BiLSTM-Attention-CRF)对前一层输出的语义编码进行序列标注和解码以获取最优文本标签序列。实验结果表明,该模型在自建数据集上的 F1 值分数为 92.58%,较基准模型 BiLSTM-CRF 提升了 4.19%;该方法对事故时间等 5 类实体识别 F1 值均可达到 91%以上,验证了该方法对施工安全事故实体识别的有效性,说明模型可用于实际施工知识管理中并指导建筑安全管理的安全培训。关键词:双向编码器表示(BERT);施工安全管理;命名实体识别;知识图谱;知识管理Named Entity Recognition Method of Construction Safety Acc
4、ident Text Based on BERTSUN Wenhan,WANG Junjie(School of Engineering,Ocean University of China,Qingdao 266400,China)Abstract:In order to solve the problem of low efficiency of accident report information analysis in traditional construction safety management,a BERT-based construction safety accident
5、 text named entity recognition method was proposed using Natural Language Processing(NLP)technology.A self-built corpus dataset of entity annotation in the field of construction safety accidents was used as the re-search object.Firstly,Bidirectional Encoder Representations from Transformers(BERT)pre
6、-training model was used to obtain dynamic word vectors,and then used Bidirectional Long Short Term Memory-Attention-Conditional Random Field(BiLSTM-Attention-CRF)to sequentially annotate and decode the semantic codes output from the previous layer to obtain the optimal text label sequences.The expe
7、rimental results showed that the F1 value score of the model on the self-built dataset was 92.58%,which was 4.19%higher than the benchmark model BiLSTM-CRF;the method achieved an F1 value of 91%or more for the recognition of five types of entities such as accident time,which verified the effectivene
8、ss of the method for the recognition of construction safety accident entities.It indicated that the model can be used in practical construction knowledge management and guide safety training for construction safety management.Keywords:Bidirectional Encoder Representations from Transformers(BERT);con
9、struction safety management;named entity recognition;knowledge graph;knowledge management 基金项目:山东省重点研发计划项目(2019GHY112081)。作者简介:孙文涵(1998),女,硕士,研究方向为建筑领域知识图谱、自然语言处理。E-mail:。0 引 言施工安全管理是维系建筑业稳定的重要工作。住房和城乡建设部统计资料显示,2021 年,全国共发生房屋市政工程生产安全事故 623 起、死亡 700人。建设过程中的非结构化事故报告文本数据通常 电视技术 第 47 卷第 1 期(总第 566 期)21P
10、ARTS&DESIGN器件与设计作为制定预防措施的依据。但在传统施工安全管理中,对事故信息的利用依赖于人工解释和处理,缺乏把事故信息转化为可复用知识的工具。施工安全事故的预防,可以通过整合多源异构的施工安全事故案例信息,构建施工安全领域知识图谱。该图谱可用于案例检索、危险源推测以及原因分析1等,这些都对施工安全管理水平提升起着重要作用。实体是知识图谱的基本单元。建立一个事故报告实体自动提取模型,识别施工安全事故中包含领域知识的实体要素,是构建施工安全领域知识图谱的基础工作。基于自然语言处理(Natural Language Processing,NLP)与机器学习的信息抽取方法作为知识提取的关
11、键技术2,目的是从文本文档中提取有效信息或领域知识填充预定义的信息模板3-4。命名实体识别(Named Entity Recognition,NER)是信息抽取的子任务,通常分为基于规则的方法5、基于统计机器学习的方法6和基于深度学习的方法7。深度学习方法已成为目前解决 NER 任务的主流方法。张鹏翔8和陈业明9利用多维字符特征表示对抽取铁路设备事故信息;FANG D 和 Chen H10基于自然语言数据增强的小样本训练方法自动抽取建筑事故新闻报道和法律法规中的信息。这些方法在加强知识管理方面发挥着有益的作用,但输入的字向量都是由 N-gram、Word2Vec 模型训练得到的静态字向量,不能
12、全面表征字向量在不同上下文中的特征,难以解决实体表述不一致以及一词多义的问题,影响实体识别效果。鉴于此,笔者拟收集 1 200 份施工安全事故报告,构建施工安全事故领域实体标注语料数据集;利 用 双 向 编 码 器 表 示(Bidirectional Encoder Representations from Transformers,BERT)预训练模型作为模型编码器获取动态字向量,以解决传统命名实体识别方法在静态字向量表示上的语义信息缺少问题;设计双向长短时记忆网络-注意力机制-条件随机场(Bidirectional Long Short Term Memory-Attention-Cond
13、itional Random Field,BiLSTM-Attention-CRF)模型作为解码器,解决施工安全事故报告文本中的上下文信息利用不充分问题,在此过程中得到的施工安全事故实体将促进施工安全领域知识图谱的构建,并更好地指导建筑安全管理的安全培训。1 概念定义及实体标注规范由于施工安全事故领域目前没有可以直接提供使用的数据集,首步工作需先自行构建实验所需数据集。施工安全事故报告主要包括事故时间、事故地点、施工项目、施工任务以及事故类型等事故知识元素,是有关施工安全事故的重要文本数据。本文所使用的施工安全数据集语料主要来自中华人民共和国住房和城乡建设部、各地方安全监管部门以及媒体报道,共
14、收集了 1 200 条左右的施工安全事故报告,并将事故文本序列以句号划分。结合建筑施工安全领域的实际应用,本文对事故文本中的实体要素进行分类,构建了包含事故类型、事故时间、事故地点、施工工程、施工任务、死亡人数、受伤人数、相关单位以及金额损失 9 类实体的安全事故数据集,并利用 YEEDA 软件完成标注,如图 1 所示。标注规范采取“BIO”方式。“B-”表示每个实体的首个字符位置,“I-”表示每个实体的中部以及结尾字符位置,“O”表示除实体外的其他无关字符。实体示例及标签如表 1 所示。表 1 实体示例及标签实体类别实体示例头标签中间及尾标签事故类型施工升降机轿厢坠落事故B-ACCO-ACC
15、事故时间2019 年 4 月 25 日B-TIMEO-TIME事故地点衡水市桃城区B-LOCO-LOC施工工程翡翠华庭项目B-PROO-PRO施工任务塔吊顶升过程B-JOBO-JOB死亡人数11 人死亡B-FATO-FAT受伤人数1 人重伤B-INJO-INJ相关单位*有限公司B-ORGO-ORG金额损失1800 万元B-MONO-MON其他O2 施工安全事故命名实体识别模型用于施工安全事故报告实体提取的 BERT-BiLSTM-Attention-CRF 模型框架如图 2 所示。该模型主要由四层组成:BERT 文本向量化层、BiLSTM特征提取层、注意力机制层及 CRF 推理层。首先,BER
16、T 预训练层通过无监督方式在大量未标注数据上做训练,实现文本到字符级向量的转换。其次,采用 BiLSTM 层对输入的字符向量进行双向编码,通过学习事故报告中的依赖关系,实现对施工安全22电视技术 第 47 卷第 1 期(总第 566 期)PARTS&DESIGN器件与设计事故报告文本的深度感知与理解,并将本层提取的特征向量传递给注意力机制层。注意力机制层协助模型重点关注显著性强的信息,对显著性弱的特征进行抑制,增强模型对事故报告的特征理解。最后,CRF 层对注意力机制层的输出解码,考虑标签间的约束关系,获取最优的事故报告实体的标注序列。2.1 BERT 文本向量化层施工事故报告包含事故时间、事
17、故地点及事故类型等语义信息。这些语义信息是模型理解施工事故报告的基础。传统的语义向量是以静态的方式处理文字,无法解决实体表述不一致及一词多义的问题。BERT 是多层的双向 Transformer 结构的预训练语言表征模型,能够自动提取出序列中丰富的语法结构特征、语义特征以及位置特征,使模型获取丰富的语义信息。BERT 的输入编码向量为每一个 token 对应的表征。该表征由对应的词嵌入、分割嵌入及位置嵌入三部分叠加组成。词嵌入是输入序列中每个字符的本身向量表示,分割嵌入用于区分两个句子,判断字符所属句子 A 或句子 B,位置嵌入是指从 0 开始将字符的位置信息编码成特征向量。每一个序列都存在
18、CLS 和 SEP 两种特殊的 token。CLS 用于每一个序列的开头位置,SEP插入到每个句子之后,用于断开语料文本中的不同句子,如图 3 所示。项目发生坍塌事故SEPCLSE项E目E发E生E坍E塌E事E故ESEPECLSEAEAEAEAEAEAEAEAEAEAE1E2E3E4E5E6E7E8E9E0词嵌入分割嵌入位置嵌入Input图 3 BERT 模型输入BERT 预训练层输出的动态向量作为事故报告的字符向量,输入到 BiLSTM 层提取和挖掘特征。2.2 BiLSTM 特征提取层BiLSTM 层作为特征提取器,提取事故报告中文本和句子间的顺序特征,构建更准确的语义表示。长短时记忆网络(
19、Long Short-Term Memory,LSTM)通过引入输入门(input gate)、遗忘门(forget gate)、输出门(output gate)以及记忆细胞来记录额外的信息。LSTM 单元结构如图 4 所示,更新过程如下。()()()()()11111tanh,ta,nh,tfftiitoocttctttttttttttttt=+=+=+=+=+=tfWbiWboWbhxhCWhxbCfCixhoxCCh?(1)图 1 数据标注界面 输入事塌坍生发故特征表示层(BERT)BiLSTM特征提取层LSTMLSTMLSTMLSTMLSTMLSTMC6C2C5C4C3C1AAAAAA
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 BERT 施工 安全事故 文本 命名 实体 识别 方法 孙文涵
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。