基于极端随机树算法的流体识别研究.pdf
《基于极端随机树算法的流体识别研究.pdf》由会员分享,可在线阅读,更多相关《基于极端随机树算法的流体识别研究.pdf(13页珍藏版)》请在咨信网上搜索。
1、第 卷第期 年月物探化探计算技术 收稿日期:基金项目:四川省重点研发项目(,)第一作者:饶骁驰(),男,硕士,主要研究方向为大数据可视化与高性能计算机和机器学习,:。文章编号:()基于极端随机树算法的流体识别研究饶骁驰,杨昊,喻辉,文武,周航,陈敏(成都信息工程大学计算机学院,成都 ;部队,成都 )摘要:对储层内流体进行识别存在较大的不确定性,多属性融合进行流体识别显得非常必要。机器学习方法已经日趋成熟,但在流体识别方面的应用还较少见。这里引入一种实现简单、具有较强普适性的方法 极端随机树方法对流体进行识别,比较了本方法较传统的机器方法的识别准确率优势,并通过均方误差及错误率的验证证实了本方法
2、对于流体识别的准确性。最后将本方法应用于南海某油气田,良好的识别效果证实了本方法对于流体识别的有效性。关键词:流体识别;极端随机树;机器学习;多属性融合中图分类号:文献标志码:犇 犗 犐:引言随着勘探程度的增加,一些易于发现的油气藏已勘探殆尽,深海勘探、非常规油气藏勘探已逐步成为勘探热点。十几年前,人们主要关注储层的研究,即储层物性(主要是孔隙度)究竟如何,储层厚度和范围的大小等。常规的地震属性分析、阻抗反演等方法在这些研究领域起了很大作用。近十年来,一些学者逐渐将目光转向储层内流体的识别,油、气、水的识别,这些研究目前已取得了很大地进展,叠前反演、分析、低频伴影分析等技术相继产生、发展。但随
3、着致密油、页岩油等勘探领域逐渐进入 人们的视野,一些新的需求随之出现。相对于常规油气藏,以上提到的这些非常规油气藏孔隙度低、非均质性强、流体粘滞性偏高、地震响应特征不明显。因此,仅凭借单一属性、参数或方法进行流体识别存在较大的不确定性,多属性融合进行流体识别是大势所趋。在储层流体识别中传统非机器学习方法限于效率低和工作量大,仅应用于对有利区或目标区的研究。同时不同的流体因子对不同区域储层含流体的敏感程度表现不同,传统非机器学习方法需要依靠人为干预,因此人为主观因素过多,干扰因素较多,不确定性强。()在支持向量机()的基础上提出了近似支持向量机(),该机器语言可以利用目标体的多种属性计算出反映该
4、目标体属性特征的最优规则。在对大数据训练集进行处理时,近似支持向量机在判别准确度不低于支持向量机的前提下,在计算效率上具有明显优势,适合对具有海量数据特征的叠前地震资料进行判别处理。近年来,机器学习已被证明在工程中具有广泛的用途(如金融领域、制造领域和零售领域),并且正在稳步 发 展 推 进 到 新 的 领 域。气 象 领 域 等利用机器学习进行实时风暴运动预测;视觉心理学领域,等利用机器学习进行视觉心理预测;生物学领域,等利用机器学习预测蛋白质的构成;地学领域,等也利用机器学习预测地震活动。目前在储层预测领域应用比较广泛的机器学习方法有 支 持 向 量 机、神 经 网 络、随 机 森林 等方
5、法。这些方法主要是通过从测井资料中提取揭示储层特征的参数作为输入参数,利用这些智能方法建立多参数与储层物性之间的映射关系,进而开展储层预测。但值得注意的是,目前这些方法在流体识别方面的应用还较少见。为此,笔者充分比较了常见的几种机器学习算法在流体识别中的应用效果,最终选取了极端随机树方法()进行流体识别,该方法具有几个显著特征:)数据的准备往往是简单或者是不必要的,对于不平衡的数据集,可以平衡误差。其他的技术要求先把数据标准化(如去掉多余的或者空白的属性)。)易于理解和实现,在学习过程中不需要使用者了解很多的背景知识,能够直接体现数据的特点,通过解释后都有能力去理解决策树所表达的意义。)易于通
6、过静态测试来对模型进行评测,可以测定模型可信度。如果给定一个观察的模型,则根据所产生的决策树很容易推出相应的逻辑表达式。方法 极端随机树()算法介绍 等 提出 或 (,极端随机树方法)。根据经典的自上而下的方法,极端随机树构建了一系列“自由生长”的回归树集合。该方法中的每一棵回归树用的都是全部训练样本,用犜(犓,犡,犛)表示。其中犜表示最后的分类器模型,犛为数据样本集,犓为基分类器的数量(基分类器数量根据所要区分的结果确定,其中基分类器数量为,用以区分水层、气层和油层)。每个基分类器根据输入样本犡狓,狓,狓狀 产生预测结果,最终通过投票确定最后的分类类别。算法实现 :给点原始样本数据集犛,样本
7、数量为犖,特征数量为犕,在极端随机树的分类模型中,每个基分类器都使用全部的样本进行训练。:基于训练数据集生成决策树,生成的决策树要尽量大。选择具有最小 的属性及其属性值,作为最优分裂属性以及最优分裂属性值。值越小,说明二分之后的子样本的“纯净度”越高,即说明选择该属性(值)作为分裂属性(值)的效果越好。计算如下:犌 犐 犖 犐(犛)犘犽()其中,犘犽表示分类结果中第犽个类别出现的频率(数量在所有样本中所占的比例)。对于含有犖个样本的样本数据集犛,根据属性犃的第犻个属性值,将样本数据集犛划分成两部分,则划分成两部分之后,计算如下:犌 犪 犻 狀犌 犐 犖 犐犃,犻狀犖犌 犐 犖 犐(犛)狀犖犌
8、犐 犖 犐(犛)()其中:狀、狀分别为样本子集犛、犛的样本个数。对于属性犃,分别计算任意属性值将数据集划分成两部分之后的 ,选取其中的最小值,作为属性犃得到的最优二分方案:(犌 犪 犻 狀犌 犐 犖 犐犃,犻(犛)()对于样本集犛,计算所有属性的最优二分方案,选取其中的最小值,作为样本集犛的最优二分方案:犃犃 狋 狉 犻 犫 狌 狋 犲(犻犃(犌 犪 犻 狀犌 犐 犖 犐犃,犻(犛)()所得到的属性犃及其第犻属性值,即为样本集犛的最优分裂属性以及最优分裂属性值。:用验证数据集对已生成的树进行剪枝并选择最优子树,这时损失函数最小作为剪枝的标准。从原始决策树犜开始生成第一个子树序列犜,犜,犜狀,其
9、中犜犻从犜犻产生,犜狀为根节点。在剪枝的过程中,计算损失函数:犆(犜)犆(犜)狘犜狘(),犆(犜)为训练数据的预测误差,犜为模型的复杂度。将在其取值空间内划分为一系列区域,在每个区域都取一个然后得到相应的最优树,最终选择损失函数最小的最优树。在选出之后,计算该对应的使损失函数最小的子树。即从树的根节点出发,逐层遍历每个内期饶骁驰,等:基于极端随机树算法的流体识别研究部节点,计算每个内部节点处是否需要剪枝。:重复执行 、和 迭代犓次,生成犓棵决策树,生成极端随机树。:将生成的极端随机树使用测试样本生成预测结果,将所有基分类器的预测结果进行统计,经过投票决策的方法产生最终的分类结果。传统的机器学习
10、算法 神经网络 算法是一种最有效的多层神经网络学习方法,其主要特点是信号前向传递,而误差后向传播,通过不断调节网络权重值,使得网络的最终输出与期望输出尽可能接近,以达到训练的目的。其优点是:并行分布处理能力强,分布存储及学习能力强;具备联想记忆的功能;对噪声数据鲁棒性和容错性较强;能逼近任意非线性关系。神经网络需要大量的参数,如网络拓扑结构、权值和阈值的初始值。不能观察之间的学习过程,输出结果难以解释,会影响到结果的可信度和接受程度。学习时间过长,甚至可能达不到学习的目的。支持向量机()支持向量机是 等 在统计学习理论的基础上提出的一种采用结构风险最小化准则的新的学习方法。相对于传统采用经验风
11、险最小化准则的学习方法,支持向量机具有更强的泛化能力。由于支持向量机是一个凸二次优化问题,所以它可以找到作为全局最优解的极值解。支持向量机可以用于对目标工区的判别分类。此方法的优点是可用于线性非线性分类,也可以用于回归,泛化错误率低,计算开销不大,结果容易解释。可以解决小样本情况下的机器学习问题,高维问题,避免神经网络结构选择和局部极小点问题。缺点是对缺失数据敏感,对于类域的交叉或重叠较多的待分样本集较难分类。最近邻()是通过测量不同特征值之间的距离进行分类。它的思路是:如果一个样本在特征空间中的犽个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。其中犽通常
12、是不大于 的整数。算法中,所选择的邻居都是已经正确分类的对象。该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。此方法的优点是简单、有效,重新训练的代价较低。该算法比较适用于样本容量比较大的类域的自动分类。其缺点是样本不平衡时,预测偏差比较大(即 某 一 类 的 样 本 比 较 少,而 其 它 类 样 本 比 较多)。计算 量 大,每 一 次 分类 都会 重 新 进行 一次全局运算。极端随机树的优点极端随机树不同于传统机器学习方法,它对于数据的准备工作较为简单甚至不是必要的,极端随机树不需要预处理数据,并且在相对短的时间内能够对大型数据源做出可行且效果良好的结果。
13、各种机器学习方法对比如表所示。神经网络方法在进行调参时需要调整网络拓扑结构、权值和阈值的初始值、学习率、迭代次数等参数,调参过程较为复杂。支持向量机调参时需要考虑惩罚系数、核函数、核函数系数等参数。犓最近邻方法在调整参数时需要考虑选取几个邻居、邻居权值、距离等参数。而极端随机树只需要调整好合适的最大迭代次数就可以了,因此是一种简单有效的分类方法。表常用机器学习方法对比 方法优点缺点极端随机树不需要预处理数据、分类方式简单有效神经网络有自 学 习 功 能 和 联想存储功能依赖于全部数据决策树直观决策规则容易过拟合、处理缺失数据困难 不依赖所有数据对 于 大 量 的 预 测样本效率低表研究区钻井的
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 极端 随机 算法 流体 识别 研究
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。