基于文本挖掘的核电运行事件致险因素分析.pdf
《基于文本挖掘的核电运行事件致险因素分析.pdf》由会员分享,可在线阅读,更多相关《基于文本挖掘的核电运行事件致险因素分析.pdf(8页珍藏版)》请在咨信网上搜索。
1、第 24 卷第 2 期2023 年 4 月南华大学学报(社会科学版)Journal of University of South China(Social Science Edition)Vol.24 No.2Apr.2023收稿日期 2022-10-06作者简介 陈建华(1971),男,湖南衡阳人,南华大学经济管理与法学学院教授,博士。1 南华大学经济管理与法学学院硕士研究生。基于文本挖掘的核电运行事件致险因素分析陈建华,雷润寰1(南华大学 经济管理与法学学院,湖南 衡阳 421001)摘 要 核电厂运行经验的精准高效反馈是提升核电安全运行的重要手段。为辨识核电运行安全关键影响因素,文章选取
2、 20172021 年的核电运行事件报告进行分析,采用文本挖掘方法,构建自定义词库对文本分词,回溯原始特征项在报告中的具体描述,将运行事件致险特征项进行可视化,改进基于词频关联关系评估方法来识别运行事件致险特征项的重要程度。结果表明,目前核电运行事件中人因因素占比为 60.21%,规程不完善是影响人因失误的首要因素,且人因因子的关联性普遍要优于管理因子和设备因子。关键词 核电厂;文本挖掘;运行事件;安全管理中图分类号 TM623 文献标识码 A文章编号 1673-0755(2023)02-0001-08DOI:10.13967/ki.nhxb.2023.0017 苏联切尔诺贝利、美国三哩岛、日
3、本福岛核事故的发生严重影响了全球核电的发展,人们更加重视核电安全。随着科技的进步,核电运行技术和装备可靠性不断提高,但面对复杂的核电系统,还是会发生意外的核电运行事件。核电厂运行经验的反馈是维持核电安全运行的重要手段。在保障核电厂安全的措施上,KIN 等从安全文化角度对核电厂进行核安全文化评估,提出基于贝叶斯网络的安全文化定量评估方法,识别核电厂的安全状态与人员安全意识之间的因果关系,以提高核安全文化水平1。ZHAO 等将任务复杂性(TACOM)量化方法引入标准化核电厂风险分析人因可靠性(SPAR-H)方法,能够有效识别任务复杂度因子,实现对人因失误概率的更准确预测2。修炳林等对 201720
4、19 年的运行事件进行统计分析,确定其中人因、设备、管理因子之间的共性问题,探讨核电安全管理的提升重点3。李鹏程等为减少专家经验判断的主观性和不确定性,通过大量核电人因事件报告分析,研究核电厂操纵员行为形成因子(PSF)之间的重要性和相关性4。刘时贤等对 2019 年之前我国核电发生具有较大后果的 23 起误碰事件进行案例分析,为核电机组降低误碰运行事件的概率提供了借鉴5。上述针对核电运行事件进行的再分析,需要耗费大量时间,并容易受到分析者主观因素的影响。随着数据分析理论的发展与数据挖掘技术的成熟,从文本内容分析事故因素的研究成果增多,例如,吴伋等对 20132017 年的船舶碰撞事故进行文本
5、挖掘,确定船舶碰撞的首要致因是人为因素。并构建碰撞风险的贝叶斯网络,进行事故的风险预测6。TIXIER 等为预防施工安全事故的发生,对施工事故报告采用自然语言处理技术构建事故报告分析系统,通过分析发现新的安全规律以改进工地安全管理7。ZHANG 等借助文本挖掘分析施工事故调查报告,挖掘其中蕴含的事故致因,确定了导致事故发生的 11 个主要因素8。数据挖掘技术也已应用在核电各方面,KLESHCHYOVA 等应用数据挖掘技术对核电厂事实耗电数据进行分析,提出预测核电厂耗电量的方法9。PARK 等利用数据挖掘技术从运行事件报告中提取了核电 PSFs 因子的相关重要性10。CAO 等通过数据挖掘将海洋
6、核电站的运行数据和船舶参数进行数据融合,改进海洋核电站状态评估模型,实现了故障溯源和运行状态评估11。关于文本数据分析,在航空、建筑、核电等行业领域都有一些研究,但运用数据挖掘方法来识别核电运行致险因素重要性和关联关系方面的研究还有待进一步加强。相比传统对核电运行事件分析的统计方法或专家经验法,文本挖掘更能深入分析文本信息12。数据挖掘方法不仅能体现核电运行事件中致险因素的重要性,而且能识别潜在关联关系。因此,本文采用文本挖掘方法分析核电运行事件报告,引入复杂网络评估方法以改进对致险因素重要度的评估,使得评估结果更为精准。一 文本挖掘的方法概要(一)文本挖掘流程相对于常见的结构化数据,文本是一
7、种非结构化数据,而文本挖掘是从非结构化数据中,通过数据处理手段如分词、降噪、聚类等手段,将其转化为结构化数据,以便能够快速获取文本关键信息。文本挖掘涉及多学科研究,主要集中于数据库技术、基于web 的协作写作、文本分析、机器学习和知识发现13。在大数据的背景下,文本作为最大的储存信息源,更应该注重文本的知识发现,本文为分析核电运行事件中的致险因素,采用文本挖掘的方法分析核电运行事件报告,其知识发现流程见图 1。图 1 文本挖掘流程 (二)文本挖掘语料库选取2017 年被称为“核电安全管理提升年”,国家核安全局为提升核电安全开展了多项核电管理行动,包括对典型的运行事件进行评估分析,持续加强核电行
8、 业 的 经 验 反 馈 和 安 全 管 理。本 文 收 集 了20172021 年国内某些核电企业详细的核电厂运行事件报告共 154 条,经筛选后可用报告共 142 条,事件发生前机组状态分布见图 2。对运行事件进行公开是国际上发展核电国家的普遍做法,运行事件报告的主要内容包括事件基本信息、事件描述、事件后果、分析过程、事件代码、纠正行动、经验教训等相关内容。图 2 事件发生时机组状态分布为保证运行事件报告文本挖掘的精准性,本文仅将核电运行报告中的事件分析过程的主要失效点或故障点确定、原因分析和 WANO 事件代码分析的内容作为文本挖掘的语料库,其中原因分析过程是对事件相关人员进行访谈和现场
9、检查,在事件发生后也进行回访或采取情景重现的方式分析核电厂运行事故的原因,逐步分析排查,从访谈和事后调用主控录音电话、人员资质是否符合程序要求、现场复盘或者模拟机操作复盘等方面进一步核实事件发生的原因。为剔除文本挖掘的干扰因素,语料库未收录报告中已排除的原因分析文本部分。(三)文本预处理本文的文本挖掘是基于 Python 语言环境下,通过 PyCharm 采用能够支持用户自定义词库的 jieba包对文本进行分词,由于核电领域的词语大多数为专业术语,为确保分词的准确性,需要构建核电领域的分词词库、停用词词库和同义词词库。(1)中文分词,在 Python 下通过 jieba 中文分词工具对运行事件
10、报告进行分词,为了避免运行事件报告中如调节阀动作异常、限位开关等专有术语被切分,我们结合百度词库、核电相关文献中的特有表述,构建分词词库。(2)去停用词,核电厂运行事件报告中存在较多的噪声词,主要可分为三类噪声词:第一类词是事2 南华大学学报(社会科学版)2023 年件报告中普遍存在且无意义的词语,如是、的、标点符号等;第二类词是频繁出现在各类事件报告中的词,如事故、根本原因、事件调查等,以及描述运行事故发生后机组状态的词如灭磁开关跳闸、发电机停机、反应堆停堆等,它们并不是导致事件发生的原因;第三类词是事件报告相关核电企业及核电设备的专用名称等。为提高事件挖掘的精度需要剔除以上几类对运行安全无
11、影响的词语。(3)同义词词库,中文存在含义相同但表述不同的词语,在核电厂运行事件报告中,不同地域的核电企业汇报的运行事件报告中存在不同的表述,例如“风险分析不足”有“风险分析不够全面”“风险分析不规范”“风险论证不足”等表述。核电运行事件同义词词库较难收集,因此,本文从已收集核电厂运行事件报告并针对不同核电企业的事件报告中按等比分配法随机抽取,总计 60 份,归纳事件致因的不同表述,结合 WANO 运行经验大纲14,构建文本分析的同义词词库。二 运行事件致险因素提取(一)文本分词和特征降维本文在分析核电运行事件报告中,所抓取的语料库由主要失效故障点、原因分析的非结构化信息和事件代码半结构化信息
12、两部分构成。在 Python环境下通过 sklearn 包导入 CountVectorizer 模块,设置一定阈值,将文本用向量表示,对语料库进行分词,得到核运行事件的高维稀疏原始特征集合。高维文本特征集合会影响致因因素提取,因此需要做降维处理。周茜等通过对文档频率(DF)、信息增益(IG)、互信息(MI)和 X2统计(CHI)等中文文本特征选择方法的研究发现 X2统计特征选择效果比 IG和期望交叉熵更具优势15。陈晓云等在对信息增益(IG)、互信息(MI)和 X2统计(CHI)的对比中发现 X2统计比互信息方法更能表征文本特征的相关性16。在文本召回率和查准率方面 X2统计降维方法更具优势,
13、具体公式如下:2(t,ci)=n (a d-c d)2(a+c)(b+d)(a+b)(c+d)(1)式中:n 为整个文本的个数;a 为属于 ci类且包含特征项 t 的文本频率;b 为不属于 ci类且包含特征项 t 的文本频率;c 为属于 ci类但不包含特征项 t的文本频率;d 为不属于 ci类也不包含特征项 t 的文本频率。那么整个语料库的 X2值如下式所示:2max(t)=maxmi=12(t,ci)(2)设定 m 值能去除文本中大部分噪声词,达到降维目的,结合 Python 的统计功能归纳特征项代表的致险因素,构建所对应的同义词词库,得到核运行事件报告的文本特征降维结果及其报告中的具体表述
14、,见表 1。表 1 核电运行事件致险因素降维结果(部分)序号运行事件致险特征项报告中的不同表述N1程序和规程不完善程序不完善、程序存在不完善、程序规定不完善、规程不明确、规程未明确、程序内容不完善、大纲内容不全面、大纲存在缺失、规程存在缺失、程序标准不清晰、程序中未明确规定、程序中缺少、程序未要求、程序中未明确、程序要求不够细致、管理流程不完善、程序描述不完善、规程质量缺陷、缺乏规定、无操作规程操作步骤未明确、管理体系不完善N2人员未严格按规范执行未严格执行制度、未按照规程步骤、未按照程序要求、未严格执行程序、未遵守管理程序、未能彻底执行、未能有效执行、行为规范执行不到位、执行不到位、未严格遵
15、守程序、未按管理程序要求、未严格遵守工作管理要求、没有严格遵守操作规程、未严格进行、未按要求执行、未严格按设计图纸执行N3风险分析不足风险识别工作不足、风险识别不足、未识别出风险风险认知不足、风险识别不全面、风险识别不到位、风险分析不全面、风险分析不够全面、风险论证不足、风险分析不完整、风险识别能力不全面、未进行完整风险分析、风险分析不到位、风险提示不足、风险分析有所不足、风险控制存在不足、风险预期不足、风险意识不足、未进行风险评估N59设计寿命内失效设计寿命内失效、预期寿命内发生故障 (二)致险因素提取在文本分析过程中,为了让文本中的知识便于发现,我们利用 Python 下的 TfidfTr
16、ansformer 模块将文本转换为向量空间模型(VSM),文本信息的空间3第 2 期陈建华,雷润寰:基于文本挖掘的核电运行事件致险因素分析向量由文本分词后特征项和其权重构成,以下 4 点是其定义:定义 1:文档 D,第 i 份核电运行事件报告文本记为 Di。定义 2:文本特征项,是指能够代表文本特征信息的词、短语等,用 Tk表示。定义 3:文本特征项权重 W,是指文本特征 Tk在运行事件报告文本 D 的重要程度,一般用 tf-idf公式计算表示,具体如下:tfi,j=ni,jknk,j(3)式中:ni,j为该词条在文本 Di中出现的次数;knk,j为所有词条在所有文本 D 中出现的次数总和。
17、idf=lg|D|j:ti dj(4)式中:D 为所有文本之和;j:ti dj为含有词条 ti的文本数量。文本特征项的权重如下式所示:tf-idf=tfi,j idfi(5)定义 4:文本挖掘中,文本分词后所提取的特征项将根据上述公式计算其对应的权重,并将其特征项转化为空间向量,计算所获得的所有文本的向量集就构成了该文本的 VSM。在 Python 下通过 sklearn 包计算核电厂运行事件报告所获得致险因素的权重时,发现对其 tf-idf值做归一化处理后,致险因素之间的权重数值比重不明显,主要是研究的运行事件报告有限,因此本文在运算上并未采取传统的归一化处理,具体致因因素权重见表 2。(三
18、)致险因素可视化与重要度评估运行经验对核电的安全管理至关重要,有效的经验反馈可以改善核电的培训管理工作,降低运行事件的发生频率。在进行文本特征项提取后,根据运行事件致险因素在不同事件报告中的共现次数,在 Python 环境下计算致险因素的共现矩阵,绘制的共现网络见图 3。为进一步突出运行事件致险因素在关联关系下的重要程度,本文引入陈志远等提出的词频关联加权度评估方法(TF-K)17。但在研究过程中发现,运用该方法一旦出现低频致险因素或者词库中没有的生僻特征项,且在共现次数少的情况下,其重要度评估结果将为 0,那评估结果将没有意义。图 3 运行事件致险因素共现网络为解决这一问题,在不改变关联关系
19、的基础上进行平滑改进,改进后公式如下式所示:aij=1,wij wij0,wij wij(6)式中:wij为致险因素节点 i 与其他所有关联节点 j 的边权值;wij为平均边权值;定义 aij为关联边权值。Ki=Ni,j=1aijKi=Ni,j=1aij+Ni,j=1aji+1(7)式中:Ki表示节点 i 的关联加权度,Ki为改进后的 Ki,aji为在低频节点 i 中高频节点 j 与节点 i 的关联边权值,提高了低频特征项权重。TF-K(i)=TF K(i)(8)式中:TF-K为基于词频关联关系的重要度评估函数,TF-K值越大,对运行事件的影响越明显,致险因素具体影响程度如表 2 所示。在不改
20、变节点关联关系情况下,对节点 i 关联的所有节点 j 边权度进行计算和对 TF-K的改进不仅有效平衡了高频词语所带来的高关系下的 K值,也对低频词语的 K值有一定的提升,对核电运行事件致险因素的重要度评估更加合理。三 结果分析(一)运行事件致险因素分析核电运行事件致险因素的提取以张力等和ZOU Y 等对核电厂运行事件影响因素分类为基础18-19,并参照了 WANO 运行经验大纲。运行事件的致险因素主要可分为人因因素、设备因素、管理因素和环境因素,见表 2。4 南华大学学报(社会科学版)2023 年表 2 核电运行事件致险因素特征及其指标序号运行事件致险因素TFDFWDTF-IDFKKKWD/K
21、TF-KN1程序和规程不完善1566040658.375522237.383588N2人员未严格按规范执行1134433557.505116186.572 034N3风险分析不足1034432952.415321206.212 060N4现场管理不到位964129951.795019235.982 208N5设计不合理874124146.945322234.552 001N6疏忽或过错623930634.805122196.001 178N7监理人员工作不到位522421840.154719204.641 040N8设备突发失效故障50257837.72347112.29550N9检查内容存在
22、不足462218937.254612184.11828N10人员经验与认知不足402117133.204214174.07680N11阀门失效39189234.984112152.24585N12未充分理解程序内容381814634.094414203.32760N13人员技能不足372014431.504111163.51592N14缺乏质疑的工作态度342016228.944313173.77578N15违反规定342217727.544812183.69612N16未及时报告或操作311715128.584111193.68589N17未进行验证验收工作312216425.1143818
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 文本 挖掘 核电 运行 事件 因素 分析
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。