基于BMBC模型的高速铁路道岔故障信息实体识别_林海香.pdf
《基于BMBC模型的高速铁路道岔故障信息实体识别_林海香.pdf》由会员分享,可在线阅读,更多相关《基于BMBC模型的高速铁路道岔故障信息实体识别_林海香.pdf(11页珍藏版)》请在咨信网上搜索。
1、第 20 卷 第 4 期2023 年 4 月铁道科学与工程学报Journal of Railway Science and EngineeringVolume 20 Number 4April 2023基于BMBC模型的高速铁路道岔故障信息实体识别林海香1,白万胜1,陆人杰2,卢冉1,赵正祥1,李新琴3(1.兰州交通大学 自动化与电气工程学院,甘肃 兰州 730070;2.卡斯柯信号有限公司,上海 200071;3.中国铁道科学研究院集团有限公司 电子计算技术研究所,北京 100081)摘要:随着铁路信号设备故障文本的不断积累,亟待构建集故障信息、专业知识、技术规则及其内在关联于一体的铁路信号
2、设备故障知识图谱,为铁路运营及设备维修提供全面高效的辅助策略。故障信息实体识别是构建铁路信号设备故障知识图谱的核心。以高速道岔故障文本为基础,并针对此文本挖掘过程中使用传统方法导致知识获取不够全面以及文本语义稀疏等问题,提出一种用于高速道岔故障信息实体识别任务的BMBC多层级模型。首先,通过分析高速道岔故障文本的结构特征,从中提取出故障现象、故障定位和故障致因等7类实体;其次,利用BERT预训练模型的迁移特性构建双向词表征并嵌入位置信息,引入多头注意力机制(MHA)使关键特征信息得到重点关注,随后依靠双向长短期记忆网络(BiLSTM)进行特征信息融合,从而充分获取全局语义信息以及更好表达序列间
3、的长距离依赖关系;最后,依托条件随机场(CRF)赋予标签约束条件,从而获得最佳识别结果。以各铁路局近 5 年的高速铁路道岔故障文本为基础进行实验,实验结果表明,BMBC模型能够精确识别各类故障信息实体,有效缓解实体边界不清晰问题,模型识别精确率、召回率和F1值分别可达91.43%,93.15%和92.31%。实验完成后进行案例识别测试,证明所构建的BMBC多层级道岔故障信息实体识别模型具有良好的识别性能。关键词:道岔;故障文本;迁移学习;命名实体识别;BMBC多层级模型中图分类号:U284 文献标志码:A 开放科学(资源服务)标识码(OSID)文章编号:1672-7029(2023)04-11
4、49-11Named entity recognition of fault information of high-speed railway turnout from BMBC modelLIN Haixiang1,BAI Wansheng1,LU Renjie2,LU Ran1,ZHAO Zhengxiang1,LI Xinqin3(1.School of Automation and Electrical Engineering,Lanzhou Jiaotong University,Lanzhou 730070,China;2.CASCO Signal Ltd.,Shanghai 2
5、00071,China;3.Institute of Computing Technology,China Academy of Railway Sciences Corporation Limited,Beijing 100081,China)Abstract:With the continuous accumulation of fault texts of railway signal equipment,it is urgent to build a fault knowledge graph of railway signal equipment integrating fault
6、information,professional knowledge,technical 收稿日期:2022-04-01基金项目:中国铁道科学研究院集团有限公司科研项目(2021YJ184)通信作者:林海香(1977),女,甘肃天水人,副教授,博士,从事交通信息数据挖掘研究;E-mail:DOI:10.19713/ki.43-1423/u.T20220637铁 道 科 学 与 工 程 学 报2023 年 4月rules,and their intrinsic correlations.It can provide a comprehensive and efficient auxiliary
7、strategy for railway operation and equipment maintenance.The named entity recognition of fault information is the core of constructing fault knowledge graph of railway signal equipment.Based on the fault texts of high-speed turnout,a BMBC multi-level model for fault information entity recognition ta
8、sk for high-speed turnout was proposed to address the problems of incomplete knowledge acquisition and sparse semantics of fault texts caused by using traditional methods in the texts mining process.First,seven types of entities including fault phenomenon,fault location,and fault reason were extract
9、ed from it by analyzing the structural features of fault text of high-speed turnout.Second,BERT pre-training model based on transfer learning was used to build bidirectional word representations and embed location information.The multi-headed attention mechanism(MHA)was introduced to focus on inform
10、ation of key feature,and then fuse feature information with bi-directional long and short-term memory network(BiLSTM).It fully obtained the feature information of training data and better expressed long-distance dependencies between sequences.Finally,the conditional random field(CRF)was utilized to
11、assign labeling constraints and obtain the best results of entity recognition.Experiments were carried out based on the fault text of high-speed railway turnout of various railway bureaus in the past 5 years.The results indicate that the BMBC model can accurately identify various types of fault info
12、rmation entities and effectively alleviate the problem of unclear entity boundaries.The precision,recall and F1 value of the model can reach 91.43%,93.15%,and 92.31%,respectively.After the experiments were completed,the case identification test was carried out and proved that the constructed BMBC mu
13、lti-level turnout fault information entity identification model has good identification performance.Key words:turnout;fault text;transfer learning;named entity recognition;multilevel model of BMBC 高速铁路道岔作为高速列车平稳安全运行的关键设备1,相较于普通铁路道岔具有容错率低、维修难度大、成本高等特点。经过多年来的运营维修,高速道岔设备积累了大量的故障数据2,这些道岔故障数据采用非结构化的文本记录形
14、式,作为之后故障查找、诊断以及维修的先验知识储备。但非结构化的高速道岔文本数据存在计算机处理不便、人工分析耗时长、故障信息挖掘不全面等缺陷。道岔故障关键信息的精准获取是实现故障快速维修的基础,而现行的道岔故障领域研究多为故障诊断及粗略故障定位35,当设备发生故障时,维修人员需要根据具体情况以及相关手册去判断故障原因,维修较为低效。命名实体识别6(Named Entity Recognition,NER)是信息抽取、知识图谱等领域的核心环节,旨在从复杂的结构化、非结构化和半结构化数据中抽取特定类型的实体,如人名、地名、组织机构名等并对这些具有特定意义的实体进行归类。命名实体识别起初用于研究如何从
15、自然文本中对公司名称进行定位提取7,目前,主要用于专业领域知识数据实体自动归类。因此为实现道岔故障知识数据的高效利用,提高故障维修效率,道岔故障信息实体识别便成为道岔故障领域知识图谱构建的关键环节8。依赖命名实体识别技术,对道岔故障现象、故障元件、维修方法等关键信息自动识别分类,实现故障元件级定位辅助,快速提供维修方案,在很大程度上提高了设备故障维修效率。早期的NER任务主要采用基于规则和词典的方法来完成910,此类方法对于复杂实体的识别效果欠佳,且无法做到实体消歧。随着深度学习的不断发展,这类具有自主学习能力的方法已广泛应用于 NER 领域1113。但上述文献只采用单个神经网络模型无法达到较
16、为理想的识别效果,所以须通过文本语料的自身特点构建多网络融合模型,在发挥各层网络最大优势的同时,又可避免因单网络自身缺点导致整体识别准确度较差的缺陷1416,然而这些网络对已标注的文本数据有很强的依赖性,不适合标注数据欠缺的情况。因此,DEVLIN等17提出基1150第 4 期林海香,等:基于BMBC模型的高速铁路道岔故障信息实体识别于 Transformer 的预训练语言模型 BERT(Bidirectional Encoder Representations from Transformers),具备在较少标注数据的情形下从无标注文本数据中进行知识学习并迁移到下游任务的能力,故对于标注数据
17、稀缺的道岔故障信息类文本处理尤其适用,同时其多头注意力机制的特性可使关键词向量关系更为紧密。综上,为了解决当前实体抽取模型无法充分适应高速道岔故障领域的实体识别任务和实体边界确定不理想问题,本文提出一种BERT-MHA-BiLSTM-CRF多层级网络模型,简称BMBC模型。该模型在基线模型BiLSTM(Bi-directional Long Short-Term Memory,BiLSTM)与CRF(Conditional Random Field,CRF)基础上融合 BERT与多头注意力机制,利用BERT处理语义稀疏的道岔故障标注数据,在模型参数调整时可持续关注下游任务,并采用多头注意力机制
18、(Multi-Head Attention,MHA)使关键特征信息权重分配更为精确。通过充分发挥各层网络优势,使模型在更新优化适应任务时避免损失太多通用的语言学知识,从而高效处理道岔故障文本,实现高速道岔故障领域的命名实体识别,从而得到最优识别结果。为检验所提模型的可靠性,通过对铁路局近5年的高速道岔故障文本数据进行实验验证。1 数据分析与处理方法1.1道岔文本数据来源本文中所涉及的实验数据为各铁路局辖区内的现场高速铁路道岔故障数据,涵盖了近5年的高速道岔故障文本记录数据,涉及到引发道岔设备工作不良、瘫痪等故障的元件级致因,如断相保护器、表示杆绝缘、转辙机接点组、道岔接地漏流装置、密贴检查器等
19、具体部件的故障描述。1.2道岔故障文本特征分析对高速道岔故障信息进行统计分析,发现在诸多道岔故障描述中,通常先给定故障结果,如“XX站22/24号道岔定位无表示”;其次进行故障原因分析:“上道检查24号道岔芯二锁闭铁和钩头卡阻,定性为电务责任检修不良”。存在于上述故障描述中的实体包含5类:故障现象-24号道岔定位无表示、故障定位芯二+锁闭铁+钩头、故障致因卡阻、维修策略上道检查和故障定性检修不良。通过对超65万字符的高速道岔故障文本语料进行分析统计,道岔故障信息中包含的基础实体有7个类别,各类实体名称、具体数量及其分布如表1所示。虽然高速道岔故障文本是由7类实体组成,但是文本结构形式多样化,需
20、要对此文本数据的结构进行全面剖析,才能够更加准确地识别出每一类实体。考虑到某些涵盖实体类型不全面的文本数据,在进行上下文特征提取时可能与全实体类型的语料有所区别,这就造成了道岔故障文本独特的结构形态,但每一条文本都涵盖了故障现象、故障定位和故障致因这3类固定实体,且位置关系基本保持不变,其他4类基础实体起到辅助作用,在构建实体识别模型时应将该结构考虑在内。尽管在实体识别过程中不能将整条故障文本作为标签来进行训练,但只要将这7类标签输入到训练模型中,在最终的测试阶段能够识别出任意测试集文本所包含的实体以及这些基础实体间的位置关系,即可达到预期的实体识别效果。1.3道岔故障信息实体标注方法在模型训
21、练初期需要完成文本序列标注这一核心步骤,当前NER领域中,运用最为广泛的是BIO(Begin-词头,Inside-词中,Other-其他)标注方法18。由于道岔故障文本由7类基础实体组成,相较于其他普通文本有着鲜明的结构特点,采用基本的 BIO标注方法无法正确标定出道岔专业性实体范畴,因此需要根据道岔故障文本的特有结构设计出一种特定的标注方法。该方法是在BIO标注的基础上进行改进和扩展,基于原有 BIO扩展类别信息,相较于其他序列标注方法所不同的是,这种特定标注方法关照了道岔故障文本的结构与形态,对实体标签类别进行定义,定义后的部分表1道岔故障信息实体类别Table 1Entity type
22、of turnout fault information实体名称故障现象故障定位故障致因维修条件维修策略维修结果故障定性标注标签PHE(Phenomenon)LOC(Location)REA(Reason)CON(Condition)MEA(Measure)RES(Result)QUA(Quality)实体数量2 6855 8322 6851 8462 6851 5392 685字符数量16 23867 98410 6593 67832 1564 61716 110字符占比/%2.410.31.60.54.80.72.41151铁 道 科 学 与 工 程 学 报2023 年 4月标签类型如表2
23、所示。2 道岔故障信息识别模型设计在进行道岔故障信息识别时,需综合考虑位置信息、各类型序列语义特征获取、特征权衡和标签约束等因素。本文构建的BMBC多层级道岔故障信息识别模型如图1所示,由图1可知,道岔故障信息实体识别流程为:首先将标注文本输入到BERT网络,从而获取融合全文语义信息的词向量表征,再由多头注意力机制完成权重分配策略,然后经下游 BiLSTM-CRF网络得到全空间语义表征并解码获得最佳约束性标签。2.1BERT层BERT 作为基于 Transformer 的双向编码器19,在道岔故障文本信息识别中可融合字符、位置和段落向量,兼顾上下文信息的同时,还能在全模型训练前进行字、词单元间
24、关系的提取20。本文面向高速道岔故障文本的BERT模型如图2所示,运用屏蔽语言模型法,将输入中的某些字或词附加MASK标签进行随机掩盖,最终依据语境预测出被遮盖的部分。在处理数据过程中,用标签CLS表示该段文本的起始位置,模型会将整条文本进行句分割,每个句子的结束位置以标签SEP表示,用于产生文本段落和位置信息,从而获得更加完整的文本语义信息2122。2.2MHA-BiLSTM层2.2.1BiLSTM网络通过对道岔故障文本语料进行实体标注时发现同一类型的实体长度差别较大,尤其是在故障致因和维修策略 2个方面,实体最大长度可达 10个中文字符。例如“北京XX场119/121号道岔定、反位无表示。
25、故障自然恢复。夜间天窗点对室内、外设备进行全面检查,更换了室内119号尖DBJ继电器,相关单位责任设备厂家”,其中包含的实体有:故障现象定反位无表示、故障定位室内119号尖DBJ继电器、维修策略全面检查+更换、维修条件天窗点、故障定性设备厂家。由于此处故障定位字符较长,故在本文识别模型中融入LSTM网络来实现道岔故障信息识别任务中的长序列记忆功能23,其基本结构如图3所示。LSTM网络中的遗忘门机制、输入门机制和内部记忆单元分别如式(1)式(3)所示,输出门机制如式(4)和式(5)所示。ft=(Wfht-1,xt+bf)(1)表2部分标签类别定义Table 2Definition of par
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 BMBC 模型 高速铁路 道岔 故障 信息 实体 识别 林海
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。