欢迎来到咨信网! | 加入共赢加入共赢 咨信网助力知识提升 | 自信网络旗下运营:咨信网 自信AI创作助手 自信AI导航
咨信网
全部分类
  • 包罗万象   教育专区 >
  • 品牌综合   考试专区 >
  • 管理财经   行业资料 >
  • 环境建筑   通信科技 >
  • 法律文献   文学艺术 >
  • 学术论文   百科休闲 >
  • 应用文书   研究报告 >
  • ImageVerifierCode 换一换
    首页 咨信网 > 资源分类 > PDF文档下载
    分享到微信 分享到微博 分享到QQ空间

    融合容错机制的基于Attention-Mask RCNN地质表格信息抽取方法.pdf

    • 资源ID:582291       资源大小:3.03MB        全文页数:17页
    • 资源格式: PDF        下载积分:10金币
    微信登录下载
    验证码下载 游客一键下载
    账号登录下载
    三方登录下载: QQ登录
    二维码
    微信扫一扫登录
    下载资源需要10金币
    邮箱/手机:
    验证码: 获取验证码
    温馨提示:
    支付成功后,系统会自动生成账号(用户名为邮箱或者手机号,密码是验证码),方便下次登录下载和查询订单;
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    开通VIP
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    声明    |    会员权益      获赠5币      写作写作
    1、填表:    下载求助     索取发票    退款申请
    2、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
    3、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
    4、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
    5、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
    6、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
    7、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。

    融合容错机制的基于Attention-Mask RCNN地质表格信息抽取方法.pdf

    1、地质表格信息提取是地质报告从信息转换到知识阶段的重要任务之一,对将非结构化的数据转化为结构化的地学知识具有重要意义,同时还为文本与表格的知识关联提供了技术支撑。然而现有的表格解析方法在地学领域存在局限性,在单元格提取中,地质表格中大量的合并单元格造成了不同单元格间大小差异大,大量小面积单元格无法被提取;在表格解析方面地质表格包含了大量的被斜线分割的特殊表头,难以自动化解析。为解决上述问题,本文提出了一种基于注意力机制的 Mask RCNN 单元格提取模型及基于 OpenCV 框架的表格结构解析方法。主要包括两个步骤:1)上下文注意模块(CAM)学习上下文特征以识别不同大小单元格;2)一种标准容

    2、错机制的复杂表头解析方法,解析含斜线分割的复杂表头单元格。在构建的地质表格数据集上进行模型性能评估,该方法对于多数地质表格的解析准确率达到95%以上;相比其他单元格识别和表格结构解析方法,该方法解析效果更优。关键词地质报告地质表格结构解析Mask RCNN容错机制注意力机制中图分类号:P628+.4,TP391文献标识码:A文章编号:0563-5020(2023)03-1147-17将积累在地球科学领域内大量多源异构数据转化为地质知识正成为促进认知智能发展的热门研究课题(Wang et al.,2021;Yu et al.,2022)。地质多源异构数据主要以地质报告和地质图的形式存在,通过挖掘

    3、地质信息获取地质知识能满足自然资源管理、生态文明建设、可持续发展等知识服务需求(翟明国等,2018;吴冲龙等,2020)。文本信息主要在地质报告中以自然文本和表格的形式展示(Qiu et al.,2019)。目前大多数研究者往往只注重了对地质文本的抽取、理解与信息挖掘(张雪英等,2018;谢雪景等,2021;L et al.,2022;邱芹军等,2022;Qiu et al.,2022),然而,在地质报告中*国家重点研发计划项目(编号:2022YFF0711601)、国家自然科学基金原创探索计划项目(编号:42050101)、湖北省自然科学基金项目(编号:2022CFB640)和自然资源部城市

    4、国土资源监测与仿真重点实验室开放基金资助课题项目(编号:KF202207014)资助。董家慧子,女,2000年生,硕士研究生,软件工程专业。Email:邱芹军,男,1988年生,博士,副研究员,测绘科学与技术专业。本文通讯作者。Email:2022-12-01收稿,2023-02-08改回。21董家慧子地质科学2023年1148除文本外,表格也同样包含了丰富的地质信息。由于单元格之间的联系非常紧密,表格信息比文本段落要更密集和规则。更准确地说,表由多个行和列组成,这些行和列包含的信息比在文档中占据相同区域的段落多得多,因此地质报告中表格信息的提取十分重要。在通用表格研究领域中,由于表格样式多变

    5、常导致表格本身框线不完整和诸多合并单元格的存在,是表格结构解析工作中面临的主要问题。在地质表格中表格整体呈现的特点为框线较为完整,但含较多合并单元格和由斜线分割的复杂表头。因此基于地质表格本身的特点,现有的通用领域的表格解析方法并不适用于地质表格,对地质表格结构解析方法的研究十分有必要。早期的研究者大多使用基于启发式的方法来提取表格信息。如通过字符特定距离(Tupaj et al.,1996),表格特有的标题、线条特点,表格特有的对齐格式来从文本中提取表格(Itonori et al.,1993;Hirayama et al.,1995;Kieninger,1998)。随着各类算法的发展,基于

    6、统计的表结构理解算法(Wang et al.,2004)也被提出。基于启发式的方法虽然可以解决基本的表格识别问题,但他们大多依赖人工设计的表格特征,在面临庞大类型的表格样式时制作表格特征模板过于耗费人力,这种方法对布局变化多样的表格不具有鲁棒性,无法扩展到大量复杂表格解析中。近年来,随着深度学习技术的发展(黄健等,2020;南晓虎等,2020;李柯泉等,2022),许多学者开始利用深度学习神经网络模型来进行表格识别工作。Gilani et al.(2017)提出了使用 FasterRCNN模型来进行表格检测,通过 RPN和全连接神经网络检测文档图像中的表格区域。随着目标检测算法在表格识别上的逐

    7、步应用。Mask RCNN(He et al.,2017)作为 Faster RCNN 的进阶,以 MaskRCNN 为基础。Prasad et al.(2020)提出了一种端到端基于深度学习的方法 CascadeTabNet,结合迭代迁移学习技术,使用Cascade RCNN 模型用于表格检测与结构识别。Raja et al.(2020)提出了 TabStructNet模型检测表格单元和结构识别问题,通过使用 Mask RCNN 检测表格中的单元格,利用LSTM 增强了结构识别的视觉特征表示,以 XML的形式输出每个单元格的坐标和内容信息,但对复杂多单元格表格依旧识别困难。Riba et a

    8、l.(2019)提出了基于 GNN 的方法检测发票文档中的表格,加入 CNN 到 GNN 中形成可扩展到有监督学习,并公开了RVICDIP 发票数据。Li et al.(2021)提出使用统一编码器解码器架构用于分割行和列,通过序列标记和 BiLSTM 来检测行列分隔符,并增加了模型的泛化能力,但难以处理合并单元格较多的表格。另外,还有部分研究者提出了基于图神经网络的方法对表格进行解析。GraphTSR(Chi et al.,2019)使用图神经网络以表单元格为输入,通过预测单元格之间的水平、垂直或不相关 3种关系来识别表结构。Qasim et al.(2019)同样引入图神经网络来表示单元格

    9、内容之间的关系。此外,FLAG Net(Liu et al.,2021)利用了表元素的可灵活调节密集上下文和稀疏上下文的聚合,用于表元素的关系推理。然而,上述基于图的工作主要是以单元格输入为基础,通过表元素之间交互而实现的,没有考虑复杂地质单元表头的解析。深度学习方法主要是将表格作为图像,使用图像分割的方式利用深度学习方法对表格进行解析,但由于表格的形态多样性和结构复杂性,对于不同领域文本中的表格114821董家慧子3期董家慧子等:融合容错机制的基于 AttentionMask RCNN地质表格信息抽取方法1149解析差别较大,适用于地质领域的表格解析方法还有待考究。目前地质表格提取相对于通用

    10、类表格仍存在一些挑战:1)含多条分割线的复杂表头单元格;2)不同表格中单元格大小差异较大;3)部分地质表格缺失边框。为解决上述问题,本文提出了一种AttentionMask RCNN 模型对表格进行单元格提取和基于 OpenCV 的表格结构解析方法,能准确有效地识别不同大小的各类单元格和解决由复杂表头引起的表格解析问题。1地质表格特点与数据集1.1地质表格特点与分类地质表格往往有单元格密集且合并单元格多的特点。在本研究中将地质表格分为3 类:1)左右框线不齐全的表格,如图 1a 中所示;2)框线齐全但单元格数量密集,常含有被一条或多条斜线分割的表头单元格,如图 1b所示;3)框线齐全,常规地质

    11、表格。由于被分割单元格中往往是属于表头所在单元格,现对表头做出如下说明。在忽略误差的情况下,取左上角坐标最小,右下角坐标位置最大的单元格的纵坐标范围作为表格中表头单元格的纵坐标范围,满足条件的单元格如图 1a中蓝色部分所示。其中蓝色部分表头对应的单元格内容如图 1a中黑色箭头指示。当含被直线分割单元格表头时,表头单元格中各部分对应的内容使用了相同颜色标出,如图 1b所示。1.2数据集地质报告种类繁多,其中在矿产地质报告中表格呈现了矿床中的矿石储量、矿物成分信息等;在水文地质报告中矿区含水层水质分析数据、坑道排水量数据以表格的形式表现;在工程地质报告中表格主要以矿石物理力学性能实验结果的形式展现

    12、;在环境地质报告中存在大量的灾害情况表。为达到尽可能全面覆盖所有地质表格类型,通过统计分析不同类型地质报告表格数量最终选取了 10篇矿产地质报告、10篇工程地质报告、8篇水文地质报告和 6篇环境地质报告以及 6篇其他类型地质报告,以及来自中国国家地质资料馆(http:/)地球科学学科类的 40 篇地质报告,通过图 1不同地质表格中被分割单元格的不同情况示例Fig.1Examples of different cases of segmented cells in different geological tablesab114921董家慧子地质科学2023年1150裁剪得到 2 000个地质表

    13、格作为基本数据集,使用 LabelMe对每个表格中的每个单元格进行位置标记,导出为 JSON 格式。最后以所标记表格总数的 80%作为训练集,其余20%作为测试集进行表信息提取的模型训练。表格信息提取分为 3 个部分,分别为使用深度学习的单元格位置识别,使用 OCR技术的单元格内容识别以及根据单元格位置对表格结构进行解析。在深度学习算法中,大量的数据集更有利于模型的训练,在提高模型精度的同时还能有效防止过拟合。为此,在原始训练图像上应用图像增强技术,以增加数据集大小。由于表格本身的对称性,使用常用的裁剪和旋转变换并不是一种有效的策略。使用膨胀变换技术来对原始数据集进行增强,并将增强变换后的数据

    14、集添加到原始数据集中实现数据集扩展。其具体实现过程为:首先将原始图像转换为二值图,在对表格图像进行二值化处理后,继而对二值图像应用一次迭代的 33 核均值滤波器来生成转换图像,从而达到将二值化中为 1的部分像素膨胀扩大的效果。图 2a表示原始图像,图 2b是膨胀变换后的图像,经过膨胀处理后将表格数据集扩展至 4 000张,用于单元格识别模型训练。2基于 AttentionMask RCNN 的表格解析模型本文设计的基于改进 Mask RCNN 模型的表格结构解析过程如图 3 所示。从图中可以看出,根据需求选择并收集了地质表格的图像,并使用 LabelMe注释工具标记表格中的单元格以生成数据集。

    15、数据被发送到 Mask RCNN 进行特征提取、分类预测和分割掩蔽,并输出表格中单元格检测结果。Mask RCNN 是 Faster RCNN 扩展的实例分割模型。它分为两个阶段:第一阶段扫描图像并生成建议,第二阶段对建议进行分类并生成边界图,具体模块介绍如下。(1)特征金字塔网络(FPN):将图像输入预训练的 FPN 网络模型中,得到相应的特征图。(2)区域建议网络(RPN):在特征图通过 RPN得到大量感兴趣区域(ROI)后,利用softmax分类器对前景和背景进行二元分类,通过双线性插值和非极大值抑制的局部感兴趣区域滤波获得更准确的候选帧位置信息。图 2原始图像(a)和膨胀变化后的图像(

    16、b)Fig.2Original image(a)and the image after the expansion changes(b)ab115021董家慧子3期董家慧子等:融合容错机制的基于 AttentionMask RCNN地质表格信息抽取方法1151(3)感兴趣区域推荐(ROIAlign):过滤后的 ROI进入 ROIAlign层,每个 ROI生成一个固定大小的特征映射。(4)3个分支:最后,该流程经过 3个分支,一个分支进入全连接层(FCN)进行掩码,其他分支进入 FCN进行对象分类并生成边界。在进行单元格提取时,虽然 FPN 层的特征金字塔模型能对输入的图片进行特征提取,但并非所

    17、有的特征都有助于提高目标检测的性能,由于边界框的区域建议可能因为被冗余信息误导而导致精度降低。为了消除这些影响,进一步增强特征图的特征,提出了一种注意力机制模块 CAM,它能捕获具有强语义信息和增加上下文依赖,给定感兴趣区域之间的语义关系。AttentionMask RCNN 网络框架模型如图 4所示。2.1单元格提取在单元格提取时,使用了 Mask RCNN 作为基础模型并对其进行改进,为主动捕获图 3地质表格解析流程Fig.3Geological table analysis process图 4AttentionMask RCNN 网络框架模型Fig.4The network frame

    18、work model of AttentionMask RCNN115121董家慧子地质科学2023年1152感兴趣区域之间的语义关系,在 FPN 层后引入了一个基于注意力机制的上下文注意模块记为 CAM 模块(Cao et al.,2020),其具体结构及实现过程如下。如图 5 所示给出了判别特征图F KC H W,分别使用 Wp 和 Ws 对他们进行维度转化,转化后的特征图计算公式(1)P=WTPFS=WTSF(1)其中P,S KC H W,然后将 P和 S维度转化为KC D,其中D=H W,为了捕获每个感兴趣区域之间的关系,其计算相关矩阵:K=PTS(2)其中 K KD D,接着维度转化

    19、为K KD H W,在使用平均池对 K 进行归一化后,得到注意力矩阵K K1 H W。同时,使用卷积层 WL将特征图 F转化为 L,具体计算公式如下,其中V KC H W。L=WTLF(3)最后对特征 K 和 L进行特征相乘,从而获得注意力表征 N,计算过程如下,其中 Ni指第 i个特征图。Ni=K Li(4)将 FPN生成的特征输入 CAM 模块,由 CAM 输出经处理后的特征进入候选区域生成网络 RPN,基于这些信息特征,CAM 自适应的更加关注感兴趣区域之间的关系,能使输出的特征建立在上下文内容依赖之上,解决了小面积数据单元格无法识别和大面积合并单元格难以完整识别的问题。图 5CAM 模

    20、块结构图Fig.5The module structure diagram of CAM115221董家慧子3期董家慧子等:融合容错机制的基于 AttentionMask RCNN地质表格信息抽取方法11532.2表格结构解析由于地质表格的特殊性,绝大多数表述信息的表格都为框线齐全或只缺左右两框线的表格,如 1.1 所介绍,本研究所选取的表格均为满足以上特征的表格。通过AttentionMaskRCNN 模型对表格中每个单元格位置进行识别,输入为 1.1小节数据集中的表格图像,输出为所识别到的每个单元格左上角坐标(x1,y1)和右下角坐标(x2,y2)由左上角坐标通过表格结构解析算法可计算得出

    21、单元格的起始行列记为 SC、SR,右下角坐标可以得出单元格的结束行列记为 EC、ER,行列位置判断示意图如图 6中所示。当识别到含分割线的 s_cell单元格时,利用 OpenCV 将原始单元格的图像提取饱和度,将图像转为二值图,同时识别单元格中线段端点坐标(x0,y0),(xk,yk)如图 7a 所图 6单元格坐标信息表示示意图Fig.6Diagram of cell coordinate information图 7对含分割线单元格的处理过程Fig.7The processing of cells containing dividersacb(x1,y1)(x0,y0)x1x2y1y211

    22、5321董家慧子地质科学2023年1154示,当线段端点落在矩形单元格的长上时,关注 yk所属的行坐标区间,当线段端点落在矩形单元格的宽上时,关注 xk所属的行坐标区间,判断得到单元格 s_cellk,为后续单元格位置解析提供基础。基于表格本身的特性,当单元格属于同一列时,其左(右)上角横坐标 x相等,当单元格属于同一行时,单元格左(右)下角纵坐标 y相等。在 2.1中的模型方法得到了每个单元格的左上角坐标(x1,y1)和右下角坐标(x2,y2),通过对所有表格左上角横坐标 x1的不完全排序分组可以得到每列单元格的最小左上角横坐标 xmin,通过对所有表格右下角纵坐标 y2的不完全排序分组可以

    23、得到每行单元格的最小右下角纵坐标 ymin。最后根据每个单元格 x1到 x2距离范围确定每个单元格的起点和终点列,根据每个单元格 y1到 y2距离范围确定每个单元格的起点和终点行,由此解决合并单元格位置问题。但由于 Mask RCNN 模型本身无法对每个单元格进行统一精准的像素级坐标识别,这里引入了容错阈值来判断各单元格是否属于同一列,设置纵坐标容错阈值 ky来判断各单元格是否属于同一行。这里将每个单元格看做一个拥有长宽的矩形,通过调试计算设置所有单元格中长边最短的三分之一为横坐标容错阈值 kx,同理设置所有单元格中宽边最短的二分之一为纵坐标容错阈值 ky,具体公式如下所示。kx=min(x2

    24、-x1)2ky=min(y2-y1)2(5)经过容错阈值校正后的坐标信息,以及表格特有的行列垂直关系,通过对所识别到的单元格坐标关系的计算得到每个单元格所跨行(SR,ER)和跨列(SC,EC)情况信息。在含分割线的单元格中,通过 OpenCV 定位分割线段的端点坐标,当单元格 C的左上角坐标为(ax,ay),右下角坐标为(bx,by)起始于第 m 行,结束于 m+q行,起始于第 n列,结束于 n+q列时,坐标关系应满足式(6)。SR=m (ym-ky ay ym+ky)SC=n (xn-kx ax xn+kx)ER=m+q (ym+q-ky by ym+q+ky)SC=n+q (xn+q-kx

    25、 bx xn+q+kx)(6)其中 ym,yn由前述分组排序得到,分别为起始于第 m 行和第 n列单元格的最小左上角横坐标和纵坐标,ym+q,yn+q分别为结束于第 m+q行和第 n+q列单元格的最小右下角横坐标和纵坐标。最后,将创建 JSON 输出作为后处理步骤,将每个单元格编号(id)、坐标(x1,y1)、(x2,y2)、行列信息(SR,ER),(SC,EC)作为字段写入其中。在将每个单元格跨行列信息计算出来以后,通过 PaddleOCR 方法(Du et al.,2020)对每个单元格内的文字进行提取,并构建了一个包含 10 000个地质词汇和 500个地质符号的识别库,在进行内容识别后

    26、将识别结果与所构建的识别库进行对比校正,由此将内容识别率提升至115421董家慧子3期董家慧子等:融合容错机制的基于 AttentionMask RCNN地质表格信息抽取方法115598%以上,最后将内容识别结果(content)写入。每个表格的 JSON 输出最终包含所预测的每个单元格的编号、边框坐标、内容、起始行列信息,如图 7b所示。3实验结果与分析3.1评估标准实验中使用 IOU、mAP、P、R、F1来评估表格检测的性能,其中 IOU(Union)是一种用于测量检测到的目标与实际重叠程度大小的指标,具体计算步骤如下:IOUAC=SBSA+SC-SB(7)A、C分别代表实际位置和预测位置

    27、编号,其中 SA表示实际位置,SC表示预测位置,SB为 A、C重叠部分,所求 IOU即为 A、C重叠率。精确率 P(Precision)被定义为预测为正的全部样例总数的比值,召回率 R(Recall)得分为预测为正的正例与全部实际为正例样本的比值,Fmeasure(F1)值为 P、R的调和平均值,3个指标计算公式如下:P=TPTP+FP 100%(8)R=TPTP+FN 100%(9)F1=2 P RP+R 100%(10)其中,TP为真正例,即样本为正,预测结果为正;FP为假正例,即样本为负,预测结果为正;FN为假负例,即样本为正,预测结果为负。最后,AP(Average Precision

    28、)为平均精度,通过 AP综合加权平均可得到全类平均正确率 mAP(Mean Average Precision),R、P、F1的值分别在 IOU 的值为 0.7时计算,即当重合率大于等于 0.7时判断预测为结果正确。3.2实验环境和参数设置本文采用 Python3.6+Tensorflow2.5 的实验环境,GPU 型号为 NVIDIA GeForce RTX3070,GPU 内 存 为 16 GB,2.90 GHz 的 Intel(R)Core(TM)i710700CPU 和 16.0 GB 的RAM。在进行单元格识别时,为使本文模型结构、功能、效率等达到某一稳定值,需要对一些超参数进行调整

    29、。,为排除表格数据集扩张产生的膨胀数据集对调参产生的影响,本文将数据集分为含膨胀表格类和不含膨胀表格类分别进行调参测试,经实验发现两种情况下各项指标波动对参数的选择结果一致,以含膨胀数据集为例选择的Backbone为 ResNet101和 ResNet50分别进行不同参数设置对比实验。Learning Rate为学115521董家慧子地质科学2023年1156习率,表示每一次迭代中梯度向损失函数最优解移动的步长,设置过大时参数更新速度的变快会加速网络的收敛速度,会导致代价函数难以收敛,设置过小时网络的学习速度会变慢,可能会陷入局部最优点。TRAIN_ROIS_PER_IMAGES 代表提取的

    30、ROI 的数量,即候选框数量,表中记为 ROIS。另外将 IMAGE_MIN_DI和 IMAGE_MAX_DIM 分别设置为 960和 1 280,STEP_PER_EPOCH 表示一轮 epoch包含的步数,设置为 200。具体对比实验结果如表 1所示。在设置不同学习率参数时,将 ROIS 设置为同一变量 300,由表中结果可知,选择ResNet101网络最佳,学习率设置为 0.001时效果最好,在调整参数 ROIS时,将学习率参数设置为 0.001,由表格对比结果可知,在 ROIS 设置为 300时精度最高,设置为 200时精度最低。3.3实验结果分析本研究使用 AttentionMask

    31、 RCNN 对表格进行单元格识别,分别在原数据集和加入膨胀变换后的数据集上与 Mask RCNN 进行消融实验,具体可视化识别结果如图 8所示。其中 Tab代表原始数据,P_Tab代表加入膨胀变化后的数据集,然后通过所识别到的单元格位置和内容信息进行表结构解析。在设置 IOU 为 0.7时,对识别结果指标进行了计算,如表 1所示。为验证 AttentionMask RCNN 模型的有效性,本文在 P_Tab 数据集上分别使用 MaskRCNN和 AttentionMask RCNN 模型的对比实验,可视结果如图 8所示。由图示可知在添加了 CAM 上下文注意力模块以后,整体模型对大面积单元格和

    32、小面积单元格的识别准确率有明显提升。除此之外,AttentionMask RCNN 模型(图 8b)相对于 Mask RCNN 模型表 1参数调整对比试验Table 1Comparison test of parameter adjustmentBackboneResNet50BackboneResNet101Learning Rate0.010.0010.0001ROIS200300400Learning Rate0.010.0010.0001ROIS200300400P0.9660.9780.975P0.9710.9780.975P0.9720.9800.976P0.9770.9800.9

    33、78R0.9620.9720.971R0.9650.9730.971R0.9690.9750.971R0.9690.9750.972F10.9710.9790.978F10.9720.9770.972F10.9740.9810.976F10.9720.9810.979115621董家慧子3期董家慧子等:融合容错机制的基于 AttentionMask RCNN地质表格信息抽取方法1157(图 8a),在对边框不齐全表格中单元格的识别与划分上也非常准确。为验证数据集增强的有效性,本文在 AttentionMask RCNN 模型上分别使用数据集Tab和数据增强后的数据集 P_Tab进行实验,可视化

    34、结果如图 9所示。由图示可知在使用了膨胀变化所得到的增强数据集 P_Tab 后,模型对单元格的识别的兼容性和完整性得到了有效提升(图 9b)。同时,取 IOU 为 0.7 时,分别在 Mask RCNN 和 AttentionMask RCNN 上使用数据集Tab和 P_Tab进行指标计算,结果如表 2中所示。在使用 Mask RCNN 模型时,使用原始数据集测试 mAP 指标值为 0.851,使用了膨胀变化扩展数据集后 mAP 值提高了 1.6%,图 8P_Tab+Mask RCNN(a)和 P_Tab+AttentionMask RCNN(b)对比实验可视化结果图Fig.8The visu

    35、alization results of P_Tab+Mask RCNN(a)and P_Tab+AttentionMask RCNN(b)methodsa.P_Tab+Mask RCNNb.P_Tab+AttentionMask RCNN115721董家慧子地质科学2023年1158在采用 AttentionMask RCNN 模型时,同样取 IOU为 0.7时,使用原始数据集测试 mAP指标值为 0.972,使用了膨胀变化扩展数据集后 mAP 值提高了 1%,由此可见数据增强的有效性。对比图 8a与图 9a可视图和图 8b与图 9b可视图可知,在加入了 CAM 模块后,模型对超大面积和较小

    36、面积单元格识别的准确率都有了很大提升,在数据集 Tab 上使用AttentionMask RCNN 模 型 比 原 有 Mask RCNN 模 型 的 mAP 值 提 高 12.1%,在 数 据 集P_Tab上,使用 AttentionMask RCNN 模型比原有 Mask RCNN 模型的 mAP 值提高 11.5%,综上可知 CAM 模块的可用性。图 9Tab+AttentionMask RCNN(a)和 P_Tab+AttentionMask RCNN(b)对比实验可视化结果图Fig.9The visualization results of Tab+AttentionMask RCN

    37、N(a)and P_Tab+AttentionMask RCNN(b)methodsa.Tab+AttentionMask RCNNb.P_Tab+AttentionMask RCNN115821董家慧子3期董家慧子等:融合容错机制的基于 AttentionMask RCNN地质表格信息抽取方法1159在表格结构解析工作上将本文方法与 5 种常规方法的性能进行了比较,Split(Tensmeyer et al.,2019)、LGPMA(Qiao et al.,2021)、CascadeTabNet(Prasad et al.,2020)、DeepDeSRT(Gilani et al.,2017

    38、)、GraphTSR(Qasim et al.,2019),这 5种模型均为通用领域模型,大多使用 ICDAR(Yin et al.,2013;Karatzas et al.,2015)、SciTSR(Chi et al.,2019)等数据集做模型测试评价。通过在这 5种模型上对各类地质表格数据进行测试,使用 P、R、F1指标进行了对比展示,如表 3所示。表 2单元格提取对比试验结果Table 2The result of cell extraction模型Mask RCNNAttentionMask RCNN数据集TabP_TabTabP_TabmAP_0.70.8510.8670.9720

    39、.982P0.8460.8620.9640.980R0.8350.8630.9710.975F10.8430.8670.9730.981表 3表格结构解析对比试验结果Table 3Table structure analysis and comparison of test results序号123456模型SplitLGPMACascadeTabNetDeepDeSRTGraphTSR本文方法表格类型A_TabB_TabC_TabA_TabB_TabC_TabA_TabB_TabC_TabA_TabB_TabC_TabA_TabB_TabC_TabA_TabB_TabC_Tab评分P0.79

    40、30.6580.9230.9030.8450.9240.8830.8570.95108530.8210.8720.9530.89310.9650.9430.9420.964R0.7830.6640.9100.9050.8620.9320.8910.8320.9320.8420.8110.8830.9400.8820.9580.9520.9380.956F10.8010.6720.9200.9130.8530.9210.8900.8430.9440.8470.8260.8940.9570.8970.9640.9570.9310.970115921董家慧子地质科学2023年1160在 1.1小节中

    41、,我们将地质表格分为 3类,这里我们记左右框线不齐全的地质表格为 A_Tab,框线齐全但单元格数量密集且多和常含有被一条或多条斜线分割的表头单元格为 B_Tab,框线齐全,常规地质表格为 C_Tab。分别选取 50张 A_Tab、B_Tab、C_Tab进行对比测试实验。由表 3可以看出,本文提出的模型在各项指标上都优于其他模型,具体表现在:(1)本文模型相对于实验 1,Split使用了 split网络叠加启发式的后处理方式,并添加了 merge 模型在其私人数据集上展现了较好的效果。虽然 Split能对合并单元格进行解析,但未将边框不齐全和地质特殊复杂表头考虑在范围内,因此本文的 F1在其基础

    42、上大大提高。(2)本文模型相对于实验 2,LGPMA 以 Mask RCNN 模型为基础,采用局部和全局金字塔掩码学习,可预测可行的空白单元格划分。虽然 LGPMA 考虑了空单元格对表格结构识别的影响,但是由于未考虑含斜线表头的解析,因此 F1值低于本文的结果。(3)本文模型相对于实验 3,CascadeTabNet 使用了 Cascade Mask RCNN 模型来进行表格结构识别。但 CascadeTabNet在表格边框缺失时会通过提取单元格内容位置来作为单元格位置,在处理跨多行合并单元格时会解析到错误的结果,模型得分明显低于本文的研究。(4)本文模型相对于实验 4,DeepDeSRT 利

    43、用 Faster RCNN 对表格区域进行检测,利用 FCN 对单元格行列进行分割检测。但 DeepDeSRT 无法识别跨单元格,地质表格中含较多合并单元格,其总体在得分表现上较差。(5)本文模型相对于实验 5,GraphTSR 将图卷积神经网络应用于表格识别,但GraphTSR 受到输入单元格的影响,与本模型相比由于对单元格缺少误差判断机制,得分略低于本模型,并且在计算速度上整体慢于本研究模型。4结语本文提出基于 AttentionMask RCNN 的单元格识别方法,引入 CAM 模块加强模型上下文关联,解决了表格中单元格面积大小差异大,识别不完全的问题;设计了基于容错机制的复杂表头解析方

    44、法,基于上述目标提取模型提取的单元格位置坐标,通过OpenCV 框架设计了一套完整的地质表格结构解析方法,解决了复杂表头难以完整精确解析问题。实验结果表明,本文设计的基于 AttentionMask RCNN 的单元格提取模型能够有效进行单元格提取,F1 值达到 98.1%。所设计的地质表格解析方法也优于目前高精度的表格解析方法,F1值达到了 95%以上。但本研究仍存在许多不足,例如对于模型训练中未涉及到的地质表格信息种类解析困难,在地质表格中存在少量复杂地层表中单元格为波浪或其他类别线条以及含各类量级表示符号,对此类地质表格后续可考虑通过 OCR 技术直接定位单元格内容位置重新绘制单元格边界

    45、线条继而进行表格结构解析工作。地质表格信息挖掘是解析地质资料的一部分工作,地学知识图谱是地球科学研究的前沿方向,对地质表格信息的精准提取有利于构建完整的地质知识图谱。由于地质表格种类繁多且存在少数不规范表格数据,研究空间较大。在完成了表格信息抽取工作后,我们的下一步工作应集中于116021董家慧子3期董家慧子等:融合容错机制的基于 AttentionMask RCNN地质表格信息抽取方法1161将文本知识与表格知识进行知识融合,从而为后续知识推理、知识发现提供支撑。参考文献黄健,张钢.2020.深度卷积神经网络的目标检测算法综述.计算机工程与应用,56(17):1223.Huang Jian

    46、and Zhang Gang.2020.Survey of object detection algorithms for deep convolutional neural networks.ComputerEngineering and Applications,56(17):1223.李柯泉,陈燕,刘佳晨等.2022.基于深度学习的目标检测算法综述.计算机工程,48(7):112.Li Kequan,Chen Yan,Liu Jiachen et al.2022.Survey of deep learningbased object detection algorithms.Comput

    47、erEngineering,48(7):112.南晓虎,丁雷.2020.深度学习的典型目标检测算法综述.计算机应用研究,37(增刊 2):1521.Nan Xiaohu and Ding Lei.2020.Review of typical target detection algorithms for deep learning.Application Research ofComputers,37(suppl.2):1521.邱芹军,吴亮,马凯等.2022.面向灾害应急响应的地质灾害链知识图谱构建方法.地球科学,网络首发.122.Qiu Qinjun,Wu Liang,Ma Kai et

    48、al.2022.A knowledge graph construction method for geohazard chain for disasteremergency response.Earth Sciences,Publish Online.122.吴冲龙,刘刚,周琦等.2020.地质科学大数据统合应用的基本问题.地质科技通报,39(4):111.Wu Chonglong,Liu Gang,Zhou Qi et al.2020.Fundamental problems of integrated application of big data in geoscience.Bulle

    49、tin of Geological Science and Technology,39(4):111.谢雪景,谢忠,马凯等.2021.结合 BERT 与 BiGRUAttentionCRF 模型的地质命名实体识别.地质通报,网络首发.113.XieXuejing,XieZhong,MaKaietal.2021.GeologicalnamedentityrecognitionbasedonBERTandBiGRUAttentionCRF model.Geological Bulletin of China,Publish Online.113.翟明国,杨树锋,陈宁华等.2018.大数据时代:地质学的挑战与机遇.中国科学院院刊,


    注意事项

    本文(融合容错机制的基于Attention-Mask RCNN地质表格信息抽取方法.pdf)为本站上传会员【自信****多点】主动上传,咨信网仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知咨信网(发送邮件至1219186828@qq.com、拔打电话4008-655-100或【 微信客服】、【 QQ客服】),核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载【60天内】不扣币。 服务填表




    页脚通栏广告
    关于我们 - 网站声明 - 诚招英才 - 文档分销 - 便捷服务 - 联系我们 - 成长足迹

    Copyright ©2010-2024   All Rights Reserved  宁波自信网络信息技术有限公司 版权所有   |  客服电话:4008-655-100    投诉/维权电话:4009-655-100   

    违法和不良信息举报邮箱:help@zixin.com.cn    文档合作和网站合作邮箱:fuwu@zixin.com.cn    意见反馈和侵权处理邮箱:1219186828@qq.com   | 证照中心

    12321jubao.png12321网络举报中心 电话:010-12321  jubao.png中国互联网举报中心 电话:12377   gongan.png浙公网安备33021202000488号  icp.png浙ICP备2021020529号-1 浙B2-20240490   


    关注我们 :gzh.png  weibo.png  LOFTER.png               

    自信网络  |  ZixinNetwork