基于深度学习的电力设备铭牌文本检测方法.pdf
《基于深度学习的电力设备铭牌文本检测方法.pdf》由会员分享,可在线阅读,更多相关《基于深度学习的电力设备铭牌文本检测方法.pdf(8页珍藏版)》请在咨信网上搜索。
1、2023 年 8 月 图 学 学 报 August2023第 44 卷 第4期 JOURNAL OF GRAPHICS Vol.44No.4 收稿日期:2022-11-08;定稿日期:2023-01-12 Received:8 November,2022;Finalized:12 January,2023 基金项目:国家自然科学基金项目(61502297)Foundation items:National Natural Science Foundation of China(61502297)第一作者:王道累(1981),男,教授,博士。主要研究方向为计算机视觉、图像处理和 CAD/CAM。
2、E-mail: First author:WANG Dao-lei(1981),professor,Ph.D.His main research interests cover computer vision,image processing and CAD/CAM.E-mail: 通信作者:朱瑞(1981),女,副教授,博士。主要研究方向为绝缘子检测、输变电设备故障检测和深度学习。E-mail: Corresponding author:ZHU Rui(1981),associate professor.Ph.D.Her main research interests cover insul
3、ator detection,transformation equipment fault detection and deep learning.E-mail: 基于深度学习的电力设备铭牌文本检测方法 王道累,康博,朱瑞(上海电力大学能源与机械工程学院,上海 200090)摘要:电力设备铭牌的快速检测可以帮助变电站、电厂了解设备信息,进行定期检修与维护,以保证设备的正常运行。针对目前的文本检测网络无法做到提高精确率的同时兼顾检测效率的问题,提出了在 DBNet网络模型中引入注意力模块(CBAM),并改进检测头,在主干网络中引入多尺度特征金字塔(FPN)结构,并在原始的 FPN 上进行改进。针
4、对目前电力设备铭牌并无公开数据集且较难采集数据的情况,提出了将数张铭牌图片裁剪成矩形,再以一定比例进行拼接成新的图像的数据增强方法,以此对数据集进行了有效地扩充。实验结果表明,数据增强方法和改进后的 DBNet 网络结构在检测性能上均有提升,优于目前大多数文本检测网络结构。改进后的 DBNet 网络结构检测精确率达到了 90.3%,召回率达到了 79.7%,F 值达到了 84.7%,相较于原始模型,F 值提升了 3.3 个百分点。在检测速度变化损失很小的同时,极大地提高了检测性能。关键词:文本检测;DBNet;注意力模块;数据增强;电力设备铭牌 中 图 分 类 号:TP 391.1 DOI:1
5、0.11996/JG.j.2095-302X.2023040691 文 献 标 识 码:A 文 章 编 号:2095-302X(2023)04-0691-08 Text detection method for electrical equipment nameplates based on deep learning WANG Dao-lei,KANG Bo,ZHU Rui(College of Energy and Mechanical Engineering,Shanghai University of Electric Power,Shanghai 200090,China)Abstr
6、act:The prompt detection of power equipment nameplates can help the complete transformer substations and power plants to efficiently comprehend device information and perform necessary maintenance,thus ensuring the proper functioning.This thesis addressed the problem of enhancing text detection effi
7、ciency while also taking into account the improvement of precision.To that end,we introduced the concept of convolutional block attention module(CBAM)into the DBNet,and improved the detection head.Multi-scale feature feature pyramid networks(FPN)structures were introduced into the backbone network,i
8、mproving upon the original FPN.Meanwhile,in view of the absence of public data for power equipment nameplates and difficulties in obtaining it,we proposed a technique to enhance the data by cutting nameplate images into rectangles and then splicing them together into a new image.In this way,the data
9、 set could be effectively expanded.The experimental results showed that both the data enhancement method and the improved DBNet network structure proposed in this paper have played a role in improving the detection performance,surpassing most current text detection network structures on the market.T
10、he improved DBNet 692 图像处理与计算机视觉 2023 年 1 network structure combined with data enhancement method yielded a precision rate of 90.3%and a recalling rate of 79.7%.The rate of F-measure also increased to nearly 84.7%,a 3.3%improvement over the original model,indicating that the detection performance wa
11、s greatly improved while the loss of detecting speed changes remained minimal.Keywords:text detection;DBNet;CBAM;data enhancement;electrical equipment nameplates 电力是现代社会正常运行的重要基础保障,变电站在电力系统中扮演着重要的角色。当今,信息技术快速发展,现代化设备不断更新,电站的智能化改造便是更新计划的重中之重。根据国家电网公司发展战略纲要的要求,国家电网将进一步推进变电站的标准化设计、规范化选型、模块化建设、机械化施工和变电站
12、整站招标项目,并规划20202025 年间,新增改造 7 700 座智能变电站。为保障变电站安全,人工智能的参与尤为重要。在理想情况下,变电站管理系统记录的设备信息应与实际设备的参数信息相吻合,但由于实际操作过程中设备铭牌上记录的参数或许存在不合规定的现象,可造成设备出厂信息与铭牌记录的信息不符、设备台账的记录与实际设备存在偏差的问题。且变电站中设备数量巨大,存在同类设备在万台以上的现象,人工全覆盖逐台排查的工作量也会过大。因此,通过研究电力设备铭牌的自动检测,有助于实现对电力设备信息的高效录入。变电站巡检机器人装有视觉检测设备,利用巡检机器人对电力设备铭牌进行自动采集、自动检测,从而实现智能
13、识别远程信息的采集和检测自动化,对建设智能变电站、保证供电安全有着重要的意义。电力铭牌属于自然场景图像中的一种,与其他自然场景下的文本检测数据相比,由于铭牌长期裸露在自然环境中,受其影响部分铭牌会产生退化。采集到的铭牌图像往往存在着部分损坏以至字迹模糊不清、反光、油污的现象。且采集到的图像中文字大小不一、字体存在差异、中英文混杂。目前,有许多企业和科研单位都在开展电力铭牌图像的文本检测研究,如 ZHOU 等1直接采用预测文本区域检测方法,但对复杂背景下的电力铭牌检测精确率不高。陈晓龙等2提出了一种共享卷积层的端到端的文本检测识别方法,提高了整体性能,但对倾斜字体和特殊符号的检测效果不佳。GUO
14、 等3改进了 EAST 的文本检测模型,用于检测电力设备铭牌上的字符,提高了网络的检测精度,但在检测速度上的表现不佳。基于深度学习的电力铭牌文本检测方法是一种快速无损的测量方式,能够得到较准确的检测结果并定位文本信息的精确位置,有利于后续铭牌上文本信息的识别。目前,基于深度学习的文本检测方法主要分为 2 种:基于候选框操作的文本检测网络,其中主要有 LIAO 等4提出的 TEXTboxs 算法,其提升了以词为主的文本检测性能,但对于中文文本检测效果一般。ZHU 和 DU5将 LSPR 引入滑线法确定回归的真值点,充分利用这些点的相关性生成更规则的多边形,但对弯曲不规则文本检测效果较差。SHI
15、等6利用 SegLink 解决多方向任意长度文本的检测问题,却不能检测字符间隔较大的文本行。MA 等7提出了优化区域建议新策略RRPN(rotation region proposal networks),但在实际训练中,其召回率较低;基于分割的文本检测网络,其中主要有 BAEK 等8提出的 CRAFT 的检测方法满足各种文本形状,但也存在部分漏检情况。XIE 等9利用 SPCnet 可以有效检测任意形状文本,但较难完成快速检测的任务。LONG 等10提出的TextSnake 用一种多圆盘覆盖来表示文字的方法,但其后处理过程比较繁琐。WANG 等11提出了 PSEnet用像素级别进行分割的方法
16、,能够检测任意形状文本,但可能会造成文本区域裁剪不全。LIU 等12提出了 ABCNet,该方法的自适应贝塞尔曲线能够拟合任意形状文本,但由于复杂形状文本其参数量过大可导致检测性能下降。HUANG 等13提 出的SwinTextSpotter 是端到端的文本检测网络,其检测器与识别器联系紧密,对于任意形状文本均可获得良好的检测效果,但其检测速度较慢。LIAO 等14提出的 DBNet 对每一个像素点进行自适应二值化,并同时加入到网络中进行训练,其检测性能优于目前大部分的主流文本检测网络。该文针对实际电力设备铭牌的文本检测,提出了一种适用于背景的电力铭牌的数据增强方法。基于DBNet文本检测网络
17、,结合CBAM(convolutional block attention module)15模块,引入多尺度特征金字塔,改进了 DBNet 的检测头,提高了电力铭牌文本检测性能,且能兼顾检测速度做到快速检测。1 DBNet 算法综述 文献14提出了用于文字检测的可微二值 第 4 期 王道累,等:基于深度学习的电力设备铭牌文本检测方法 693 化网络 DBNet,DBNet 网络为可检测水平、多方向的近似二值图弯曲文本,相较于以往的文本检测网络,在拥有更快速度的同时还拥有可观的性能。DBNet网络结构如图1所示。从图中可以看出,网络结构主要包括 3 部分:主干网络 ResNet5016、特征金
18、字塔(feature pyramid networks,FPN)结构和检测头。图 1 网络结构 Fig.1 Model structure 场景图像包括目标物体前景、背景和噪声。在一张数字化图像中,目标信息获取的方法最常用的是设置一个阈值 T。T 的作用是将图像分为大于 T与小于 T 的 2 部分,这种方法称为图像的二值化。传统基于阈值的二值化方法为 ,1,if 0,otherwisei ji jPtB(1)其中,B 为二值图;i 和 j 为特征中的下标位置;P为计算二值图时的前驱特征图;t 为阈值。式(2)是 Sigmiod 函数 1()1xf xe(2)由于其单调递增以及反函数单调递增的性
19、质曲线平滑、易于求导,因此Sigmoid函数常被用作激活函数。但Sigmoid函数计算反向传播时,会出现梯度消失的问题,导致深层网络无法完全训练。一般的Sigmoid二值化处理是无法在网络学习中进行优化的。因此本文提出了一种可微分二值化(differentiable binarization,DB),其为一个近似跃阶函数,即 ,()11i ji ji jk PTBe(3)其中,,i jB为近似二值图;Pi,j为概率图;Ti,j为阈值图;k为学习因子,设置为50。为了解决正负样本不平衡的问题,对损失函数使用了二元交叉熵(binary cross-entropy,BCE),且通过对负样本进行取样,
20、以降低损失,即 ln(1)ln(1)lsbiiiii SLLyxyx(4)其中,Ls为概率图的损失;Lb为阈值图的损失;Sl为被采样的数据集,其中正负样本比例为13;x,y分别为特征图样本的实际输出和期望输出。2 改进方式 2.1 数据增强方式 深度学习网络模型需要大量的数据进行训练,由于电力设备铭牌数据的稀缺性,故需进行有效的数据增强。铭牌金属材质居多且有少量为纸质,底色和字体样式较多,有金色、黑色、银色等,且字体有宋体、楷体等。因此本文用数张图片裁剪成大小不一的矩形,再更改比例后拼成一张新图片,并以此进行数据增广。这种方法可以丰富铭牌的背景,削弱网络模型对某些特征的依赖。数据增强效果如图2
21、所示。(a)(b)图 2 数据增强示例(a)原始图片;(b)增强图片)Fig.2 Example of data augmentation(a)Original images;(b)Enhanced images)2.2 结合注意力模块 注意力模块分别由通道注意力(channel attention module,CAM)和 空 间 注 意 力(spatial attention module,SAM)2个独立的子模块结合而成。注意力模块能够使网络更加关注局部信息,即定位到感兴趣的信息,抑制无用信息,从而增强网络的性能。694 图像处理与计算机视觉 2023 年 具体结构如图3所示,FCHW输
22、入的特征图,根据CAM和SAM先后顺序进行推导,得到2个注意力特征,分别为一维通道注意力特征1 1Ccf,二维通道注意力特征1 1Csf,该过程可以简化为 1211()()csFfFFFfFF(5)其中,F1为CAM输出特征;F2为最终的精密输出特征;为矩阵对应元素相乘。通过平均池化和最大池化操作,生成2种不同的空间背景avgcF和maxcF,CAM可概括为 10avg10max()(AvgPool()(MaxPool()()()cccf FMLPFMLPFW W FW W F(6)其中,为Sigmoid激活函数;/0C r cW;/1C C rW;MLP为W0和W1的共享权重。通过使用2个池
23、化操作可汇总特征图的通道 信息操作,生成2个二维特征图:1avgsH WF和1maxsH WF,SAM的计算方法为为 3 33 3avgmax()(AvgPool();MaxPool()(;)sssfFfFFfFF(7)其中,为Sigmoid激活函数;f33为33的卷积运算。图 3 CBAM 模块整体结构 Fig.3 The structure of CBAM 2.3 主干网模块设计 改进后的主干网使用ResNet50,同时采用多尺度特征FPN来融合主干网中不同卷积子模块的特征,并使用CBAM在主干网和FPN之间调整感受野,提高对特征提取的能力。ResNet50有2个基本的子模块,一个是特征子
24、模块,输入和输出特征图的维度相同,所以可以串联。另外一个卷积子模块的输入和输出特征图的维度不同,不能直接将输入、输出特征进行串联。文本检测中,主干网由于其深度的增加和尺度的降低会造成最后输出的特征图只具备针对大文本的检测能力,对小目标文本和边缘文本的检测能力较差,使用FPN可以有效地将主干网模型中浅层文本特征与深层特征相融合来获得良好的性能,为后续检测阶段针对文本预测能够提供更好的特征提取能力。在实验中,将主干网横向卷积由33转换成11的卷积。经过11的卷积提取特征后添加注意力机制,并在特征融合前使用CBAM注意力机制完成特征的预先筛选。在上采样中调整采样后的卷积核大小为1。最后在FPN输出的
25、4个特征层进行上采样,将其变成相同的维度合并成一个特征图进行检测。2.4 改进后的检测头 在检测端阈值图的改进中,使用池化操作,以获得缩小尺度的感兴趣区域特征图。为了解决池化后特征不匹配的问题,本文使用ROI Align双线性插值,ROI Align将相应区域池化为固定尺寸的特征图,便于后续的分类和回归操作。使用双线性插值将预测特征图中的坐标为浮点数的特征值直接进行插值,从而使特征聚集过程转化为连续的操作。计算阈值图T时,在输入特征图卷积标准化以及ReLU激活函数后增加最大池化层,并在模型最后使用ROI Align双线性插值来优化针对文本的检测性能。双线性插值在针对特征的检测阶段有良好的扩展性
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 深度 学习 电力设备 铭牌 文本 检测 方法
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。