基于BERT模型的勘探开发资料关键信息智能提取_李新锋.pdf
《基于BERT模型的勘探开发资料关键信息智能提取_李新锋.pdf》由会员分享,可在线阅读,更多相关《基于BERT模型的勘探开发资料关键信息智能提取_李新锋.pdf(3页珍藏版)》请在咨信网上搜索。
1、工艺管控146|2023年05月1 基于BERT 模型的关键信息提取BERT 预训练语言模型是一种基于 Transformer结构的预训练网络1。根据给定的输入文本,学习利用上下文给出词嵌入表示,分别计算关键向量、查询向量和值向量,融合使用注意力机制,获得当前输入文本与上下文语义的关系及其业务信息和含义,使用多头注意力机制,动态生成词向量,不断获取更符合实际的向量表示。1.1 提取流程本文将勘探开发成果资料关键信息抽取的分析过程看作是文本分类任务,对文本预处理、分词、模型构建和分类,结合 BERT 预训练语言模型实现关键信息提炼抽取。本文模型框架如图 1 所示。主要包含三个部分:(1)数据输入
2、层:为了分词准确,对数据预处理过滤,在分词后停用词处理。根据资料特性,将文本划分为头部、主体和尾部三个结构,对每个结构模块分别处理;(2)模型构建层:利用海油基于 BERT 模型的勘探开发资料关键信息 智能提取李新锋,黄凌宇,崔立敏,倪子颜(中海石油(中国)有限公司深圳分公司,广东 深圳 518000)摘要:海上油气勘探开发工作会产生大量文档、图件等成果资料和相关信息。文章提出基于 BERT 预训练语言模型对此类资料数据预训练,生成具有上下文特征的词嵌入向量作为模型输入,利用数据增强和 TF-IDF(词频-逆文件频率)技术来提取特征词,并分析模型预测结果,结合业务数据实现准确率达 85%以上的
3、勘探开发成果资料自动分类及关键信息提取。相较于传统浅层深度学习方法训练出的词与向量单一对应关系和静态词编码方式,实现了对勘探开发词汇一词多义处理和特定任务动态优化。关键词:勘探开发资料;自然语言处理;预训练语言模型;关键信息提取;双向 Transformers 表示中图分类号:TE19 文献标志码:A 文章编号:1008-4800(2023)14-0146-03DOI:10.19900/ki.ISSN1008-4800.2023.14.043Intelligent Extraction of Key Information from Exploration and Production Dat
4、a based on BERT ModelLI Xin-feng,HUANG Ling-yu,CUI Li-min,NI Zi-yan (Shenzhen Branch,CNOOC China Co.,Ltd.,Shenzhen 518000,China)Abstract:Offshore Oil and gas exploration and production will produce a large number of documents,maps and other results.This paper proposes to pre-train such data based on
5、 the BERT pre-training language model,generate word embedding vectors with context features as model input,extract feature words using data enhancement and TF-IDF(word frequency-inverse file frequency)technology,and analyze the model prediction results,Combined with business data,automatic classific
6、ation and key information extraction of exploration and development results with accuracy of more than 85%can be achieved.Compared with the single correspondence between words and vectors trained by the traditional shallow depth learning method and the static word coding method,it realizes the polys
7、emy processing of exploration and development vocabulary and the dynamic optimization of specific tasks.Keywords:exploration and production data;natural language processing;pre-training language model;key information extraction;bidirectional encoder representation from transformers图1 关键信息抽取模型框架2023年
8、05月|147了头部和尾部之外的所有具有勘探开发业务情况的正文内容。对于地层研究、地质设计和工程设计文档等经过切分后正文内容依旧很长的文本,本文决定采用 TF-IDF(Term Frequency&Inverse Documentation Frequency)技术4进行关键词提取,在信息检索领域,技术人员广泛使用此算法计算权重。对于某一特征值,权重越大表明该特征项较为重要,一个词在特定的文档中出现的频率越高,说明它在区分该文档内容属性方面的能力越强;一个词在文档中出现的范围越广,说明它区分文档内容的属性越低,选择那些对一类作用大而对其他类作用小的特征保留下来。(4)预训练 BERT 算法模型
9、。BERT 模型是有别于传统 CNN 和 RNN 的一种新型架构,采用编码器-解码器框架,使用注意力机制进行机器翻译任务,规避了 CNN 不适合序列化的文本和 RNN 无法并行容易超出内容限制的问题。该模型的 Encoder 将输入序列映射到连续表示,然后 Decoder 生成一个输出序列,每个时刻输出一个结果。(5)模型输出。通过使用 Softmax 分类器来预测成果资料关键标签,如:对具备业务含义的“压裂”“出砂”“井下作业”等信息打标签,该分类器将上一层得到的隐状态作为输入。(6)目标损失函数。成果资料关键信息提取是一个多分类的问题,使用 softmax 分类器输出的标签概率与实际标签分
10、布概率计算损失函数。2 实验2.1 实验环境及数据集本实验是在海油 AI 平台提供的开发环境下,基于 Python 语言使用 Pytorch 框架在 Linux 环境开展。该平台建于 2019 年,整合了大部分深度学习中的神经网络模型并结合海油业务实际定制开发和训练了较为成熟的算法模型,通过模型商城对外提供服务。实验使用了中海油勘探开发数据湖推送的成果资料,对初始数据预处理,筛选、去除无用信息,共使用了 934 个勘探开发成果资料文本。为保障实验效果,本文作者协同业务专家对获取的文本关键信息进行了标注,全量数据的 80%用作模型的训练集,10%用作测试集,10%用作验证集。2.2 超参数设置及
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 BERT 模型 勘探 开发 资料 关键 信息 智能 提取 李新锋
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。