基于地理信息相似度的负样本...在泥石流易发性评价中的应用_刘国栋.pdf
《基于地理信息相似度的负样本...在泥石流易发性评价中的应用_刘国栋.pdf》由会员分享,可在线阅读,更多相关《基于地理信息相似度的负样本...在泥石流易发性评价中的应用_刘国栋.pdf(12页珍藏版)》请在咨信网上搜索。
1、书书书Journal of Engineering Geology工程地质学报10049665/2023/31(2)-0526-12刘国栋,秦胜伍,孟凡奇,等 2023 基于地理信息相似度的负样本采样策略在泥石流易发性评价中的应用J 工程地质学报,31(2):526537 doi:1013544/jcnkijeg20220317Liu Guodong,Qin Shengwu,Meng Fanqi,et al 2023 Application of geographic information similarity based absence sampling method to debris
2、flow sus-ceptibility mappingJ Journal of Engineering Geology,31(2):526537 doi:1013544/jcnkijeg20220317基于地理信息相似度的负样本采样策略在泥石流易发性评价中的应用*刘国栋秦胜伍孟凡奇高峰熊良文潘宏宇姚靖宇乔双双(吉林大学建设工程学院,长春 130026,中国)(山东省国土空间生态修复中心,济南 250014,中国)(自然资源部黄河三角洲土地利用安全野外科学观测研究站,济南 250014,中国)摘要本文以吉林省永吉县为研究区,结合历史资料与现场实际情况,研究了基于地理信息相似度的负样本采样策略在
3、泥石流易发性评价中的应用,并探索了不同取值范围下选取的负样本对最终易发性评价结果的影响。本次研究选取了高程、坡度、坡向、平面曲率、剖面曲率、年平均降水量、归一化植被指数、地形湿度指数、断层密度、道路密度、水系密度、人口密度、土地利用类型、岩土体类型等 14 个因子,依离散型与连续型两种分类采用不同方法计算单因子相似度,综合获得全区地理信息相似度后按其不同阈值进行负样本采样,并以支持向量机模型为基础模型,采用受试者工作特征曲线、正样本准确率和预报效率曲线 3 种评价方法进行了评价。结果显示:当负样本的地理信息相似度值逐渐增大时,模型精度和正样本准确率逐步降低,预报效率先增后降,易发程度由高估向低
4、估变化;在地理信息相似度取值范围 00.5 内选取的负样本兼顾了模型准确性与土地利用价值,并具有最高的预测效率,是一种优秀的负样本取样策略。本次研究结果与实际较为相近,基于地理信息相似度的负样本采样策略有效提升了负样本质量,提高了预测效率,合理平衡了易发区划分与土地利用的矛盾,可为研究区防灾政策的制订、区域防灾的土地规划提供依据,也为区域泥石流易发性评价提供了一种新的思路。关键词泥石流;易发性评价;负样本采样;地理信息相似度中图分类号:P642.23文献标识码:Adoi:1013544/jcnkijeg20220317*收稿日期:20220611;修回日期:20221212基金项目:国家自然科
5、学基金(资助号:41977221)This research is supported by the National Natural Science Foundation of China(Grant No 41977221)第一作者简介:刘国栋(1995),男,硕士生,主要从事地质灾害防治研究 E-mail:liugd20 mailsjlueducn通讯作者简介:秦胜伍(1980),男,博士,教授,博士生导师,主要从事工程地质、地质灾害治理方面研究与教学工作 E-mail:qinsw jlueducnAPPLICATION OF GEOGAPHIC INFOMATION SIMILAITY
6、 BASEDABSENCE SAMPLING METHOD TO DEBIS FLOW SUSCEPTIBILITYMAPPINGLIU GuodongQIN ShengwuMENG FanqiGAO FengXIONG LiangwenPAN HongyuYAO JingyuQIAO Shuangshuang(College of Construction Engineering,Jilin University,Changchun 130026,China)(Shandong Provincial Territorial Spatial Ecological estoration Cent
7、er,Ji nan 250014,China)(Yellow iver Delta Land Use Security Field Scientific Observation and esearch Station,Ministry of Natural esources,Ji nan 250014,China)AbstractTaking Yongji County of Jilin Province as a study area,we investigated the application of the geographicinformation similarity based a
8、bsence sample sampling method to debris flow susceptibility mapping,and exploredthe influence of the selected negative samples under different value ranges on the final susceptibility mapping re-sults We selected 14 factors including elevation,slope,aspect,plane curvature,profile curvature,mean annu
9、alprecipitation,normalized difference vegetation index,topographic wetness index,fault density,road density,watersystem density,population density,land-use,and geotechnical type Then,we used different methods to calculatesingle-factor similarity based on two classifications:discrete and continuous A
10、fter synthetically obtaining the region-wide geographical information similarity,we sampled negative samples according to their different thresholds Sub-sequently,we chose the support vector machine model as the base model,and three methods(OC,positive sampleaccuracy and forecast efficiency curves)a
11、s evaluate system The results show that:Firstly,the geographical infor-mation similarity based absence sample sampling method can effectively improve the quality of negative samplesSecondly,when the value of geographical information similarity of negative samples gradually increases,the modelaccurac
12、y and positive sample accuracy gradually decrease,the forecast efficiency first increases and then decreasesAt last,the negative sample selected within the geographic information similarity range of 0 to 0.5 balances modelaccuracy with land-use value and has the highest predictive efficiency,making
13、it an excellent negative sample sam-pling strategy The sampling strategy of negative samples based on the similarity of geographical information effec-tively improves the quality of negative samples,enhances the prediction efficiency,reasonably balances the contra-diction between the division of sus
14、ceptibility zones and land-use,and provides a new way of thinking on the evalua-tion of regional debris flow susceptibilityKey wordsDebris flow;Susceptibility assessment;Negative samples sampling;Geographic information similarity0引言随着全球气候变化与人类加剧对山区的开发建设,泥石流灾害的发生频率与日俱增,对人类的影响也愈加严重(陈荟竹等,2018)。泥石流往往具有突
15、发性,这使得常规的手段难以准确判断其发生的空间位置,而泥石流易发性评价作为一种区域性的易发性预测手段,对防灾减灾工作显得尤为重要。自 20 世纪 70 年代以来,学者们对泥石流进行了系统研究。在泥石流易发性评价方向,总体上可划分为经验方法和数据驱动方法两个阶段。早期受各种条件的限制,易发性评价以经验方法(张文等,2010)、模糊推理系统(杨晨晨等,2020)为主,其主要是以专家的知识与历史经验为基础来判断泥石流易发程度。但这种方法主观性强,准确性难以保证。而数据驱动方法(Zezere et al,2017)作为一种定量分析方法在逐步发展起来。此方法主要是从已发生的泥石流样本中来获取泥石流易发性
16、 影响因素关系,从而建立线性或非线性模型来预测研究区内未知区域的泥石流易发性。数据驱动方法种类繁多,如信息量法(张以晨等,2018)和频率比法(仉义星等,2019)等。近年来,随着人工智能技术及其硬件支持条件的发展,机器学习凭借其强大的非线72531(2)刘国栋等:基于地理信息相似度的负样本采样策略在泥石流易发性评价中的应用性建模能力受到专家学者的青睐,各种机器学习模型被广泛应用于泥石流易发性的评价中,如逻辑回归(于淼等,2021)、随机森林(高泽民等,2021)、人工神经网络(付锦涛,2020)、支持向量机(Xiong etal,2020)、深度学习(Chen et al,2020)以及各类
17、耦合模型等。整体来看,数据驱动模型在一定程度上克服了经验方法的主观局限,可以更好地挖掘泥石流易发性与其影响因子之间的关系,为泥石流的易发性评价提供了新思路。无论使用哪种数据驱动方法,均需使用样本来训练模型。目前按照使用样本的类别可分为两类:一是仅使用泥石流样本点(以下简称“正样本”)的单分类方法,如单分类支持向量机(Mohammady etal,2012)等。另一种是使用泥石流样本点和非泥石流样本点(以下简称“负样本”)的二分类方法,如上述的随机森林和支持向量机等。尽管部分学者证明单分类方法在易发性评价中有一定的预测精度,但更多的研究表明,负样本对最终泥石流敏感性结果的合理性有着重要贡献(En
18、gler et al,2004),单分类方法由于缺乏负样本的约束,极易将低易发区推测为高易发区,从而导致整体易发性的高估。综合来看,二分类方法能够较好地反应研究区内的泥石流易发性概况,应用也更为广泛。但二分类方法对样本的选择非常敏感,不同训练样本可能导致最终的泥石流易发性区划有着显著差异(Feizizadeh et al,2014),这种差异甚至大于模型选择带来的差异。在泥石流易发性预测的实际问题中,泥石流点的选择是确切可信的,这部分样本主要是各地的地质灾害调查人员通过实地调查获得。与传统的二分类模型有确定的负样本不同,泥石流易发性评价中的负样本是不确定的,泥石流灾害点以外的区域也有可能是潜在
19、的泥石流灾害区域(黄发明等,2021)。本质上,这是一个典型的只有正样本和未标记样本的 PU(Positive-unlabeled learning)学习问题(甘洪啸,2017),最常用的解决方法是两阶段技术(Yao et al,2022),即首先通过某种策略挖掘出部分可信的负样本,然后利用此负样本与已有的正样本组成一个传统的二分类模型来进行后续工作。针对样本来说,当样本的影响因子相似时,其发生概率也是相似的(Hudson,1992)。换言之,负样本的选取就是选用那些与已知正样本相似度较低的样本,问题的关键就在于如何定义相似度。目前常用的负样本采样策略有以下 3 种:第 1 种是缓冲区控制采样
20、法(刘艳辉等,2021),即在正样本周围划定缓冲区,在缓冲区外随机采样。这种方法有着严重的缺陷,首先是缓冲区的范围在不同地区没有公认值,主观性强;其次是缓冲区外的点仍然可能包含潜在泥石流点,只是因为缺少诱发条件而尚未发生。因此基于缓冲区控制取样法的负样本整体质量一般。第 2 种方法是间谍技术采样法(Yao et al,2022)。间谍技术采样法从理论上选取了较为可靠的负样本,克服了主观因素,但是往往需要间谍样本有足够的量,否则整体的结果可信度较低。而已发生泥石流灾害在区域内往往面积占比相当小,难以满足大量的间谍样本的要求。第 3 种方法是 1-DNF技术采样法(赫枫龄等,2007)。使用 1-
21、DNF 所选取的负样本准确率较高,但是此方法对负样本选取过于严格,致使正样本特征过于庞大,在某些情况下甚至会出现负样本为 0 的极端情况。综合来看,学者们对泥石流易发性评价中的负样本采样策略进行了详细的探索,各种方法相对于完全随机取样的方式都有不同程度的进步,但是也存在采样条件苛刻、受样本数量限制等各种局限性,且对负样本选取阈值对最终结果的影响研究也较少。针对上述负样本采样中存在的问题,本文以吉林省永吉县为例,以支持向量机模型为基础模型,采用了一种基于地理环境相似度(缪亚敏等,2016)的负样本采样方法,利用 PU 学习两阶段技术进行区域的泥石流易发性评价。该方法可以有效克服负样本采样过程中主
22、观性等局限,提高负样本的可信度,并对不同阈值下选取的负样本对最终泥石流易发性区划的影响进行了探索比较,为泥石流易发性评价中样本的合理选择提供一种新思路,为研究区防灾政策的制订、区域防灾的土地规划提供依据。1研究区概况研究区永吉县位于吉林省中东部,地处东经12548091264001,北纬 431807433500之间,幅员面积约 2625 km2。永吉县属松嫩平原向长白山地的过渡地段的前沿,地形地貌为低山丘陵区,区内地势总体上东南高,西北低。境内水系发育,属第二松花江中游水系,气候类型为北温带大陆性干寒季风型气候,四季分明,年平均气温约 5 9,年平均降水量约 600700 mm,降水集中在
23、68 月。研究区的构造类型复杂,断裂褶皱发育,岩性以花岗岩、安山岩及其变质岩为主。区内各类复杂825Journal of Engineering Geology工程地质学报2023的地质条件与集中的降水,致使永吉县泥石流灾害频发。根据笔者对区内地质灾害历史资料的收集与实地调查显示,永吉县共发育泥石流灾害 129 处,规模以中小型为主,类型以水石流为主。研究区地理位置及泥石流灾害分布见图 1。图 1研究区地理位置与泥石流灾害点分布图Fig 1Location of the study area and the spatial distribution of debris flow samples
24、2影响因子选取泥石流灾害的发生是地质环境变化的结果,而地质环境是一个受诸多因素影响的系统,因而合理的选取影响因子描述地理环境差异对泥石流易发性评价有着重要影响(杨光等,2019)。通过广泛的文献阅读和对实地环境的分析,本次工作共选取了高程、坡度、坡向、平面曲率、剖面曲率、年平均降水量、归一化植被指数(NDVI)、地形湿度指数(TWI)、断层密度、道路密度、水系密度、人口密度、土地利用类型、岩土体类型 14 个因子,其数据源、数据类别、精度见表 1,各类因子详情见图 2。高程(图 2a)决定了泥石流物源的势能,对坡体的应力有着重要影响,研究区东部有大量山体起伏地形,对降雨、植被覆盖等内容均会有影
25、响;坡度(图 2b)是泥石流发生的控制因素之一,在一定的坡度范围内,坡度增加会增大坡体破坏的概率,从而使表 1影响因子信息Table 1Impact factor information data影响因子数据源类别精度高程先进对地观测卫星连续型125 m坡度先进对地观测卫星连续型125 m坡向先进对地观测卫星连续型125 m平面曲率先进对地观测卫星连续型125 m剖面曲率先进对地观测卫星连续型125 m归一化植被指数哨兵二号卫星连续型10 m地形湿度指数先进对地观测卫星连续型125 m断层密度地质图连续型1 50 000水系密度地质图连续型1 50 000岩土体类型地质图离散型1 50 000
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 地理信息 相似 样本 泥石流 易发性 评价 中的 应用 刘国栋
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。