![点击分享此内容可以赚币 分享](/master/images/share_but.png)
知识图谱技术在全国取用水平台的应用.pdf
《知识图谱技术在全国取用水平台的应用.pdf》由会员分享,可在线阅读,更多相关《知识图谱技术在全国取用水平台的应用.pdf(8页珍藏版)》请在咨信网上搜索。
1、第4期2023年8 月D01:10.19364/j.1674-9405.2023.04.002水利信息化Water Resources Informatization知识图谱技术在全国取用水平台的应用NO.4Aug.2023王晨雨,刘庆涛,沈红霞(水利部信息中心,北京10 0 0 53)摘要:全国取用水平台整合是实现取用水业务“一网统管”的重要途径,但因拟整合的取用水业务系统繁多,信息资源分散,平台整合中存在一数多源、标准不统一、户证点关系不清晰等现实问题,为此尝试提出将知识图谱技术应用于平台整合过程,建设一套全国统一的数据库表结构标准,形成一套真实且唯一的户证点关系,构建一套智能且有效的监管
2、数据产品。采用自顶向下的知识图谱构建方式,根据各系统的结构化数据,构造模式层中的本体及其相互关系,形成对应的概念模型和规则关系,再依照此模式从数据中抽取实体及关系,进行数据融合,构造数据层,并及时进行知识更新,完成全国取用水平台知识图谱的构建。最后基于统一规范的数据库表结构标准,依据对取用水户取用水行为的监管需求,开展时空尺度的数据信息统计分析,构建6 类监管产品,形成取用水管控一张图。关键词:全国取用水平台;知识图谱;系统整合;自顶向下中图分类号:TV213.4;T P180引言“十二五”以来,国家逐步加大了水资源监管信息化建设力度,先后启动了国家和地方水资源监控能力建设一期、二期项目,初步
3、建成了覆盖国家、流域、省级的水资源信息管理系统,基本建立了取用水监控体系。“十三五”期间先后建成全国取水许可电子证照、用水统计调查直报管理、取水工程(设施)核查登记等系统,各地也结合水资源管理需要,建成了取水许可审批、取水计划、水资源税费及地方水资源管理等系统。这些系统在一定的领域和时期,发挥了特定作用,有效支撑了水资源管理、水资源税改、取水许可管理、取水工程专项整治等业务。取用水监管作为水资源管理的重要内容,通过建设这些系统,监管能力得到有效提升。但因水资源管理数据资源涉及水利部、流域机构、地方水利部门,以及行政审批局、税务等多部门,信息资源类型多样,存储管理分散,各自独立,标准不统一,平台
4、不联通,业务不协同,无法满足社会服务和监管决策需求;涉及取用水业务系统繁多,信息资源分散,数据共享难,存在一数多源、异常值偏多的情况,制约水资源数据算据效力的发挥,导致数据深度融合分析及业务服务支撑能力不足。对标“十六字”治水思路、国家“以水而定,量水而行”、水资源刚性约束制度2 、水利高质量发展、智慧水利建设3 ,以及收稿日期:2 0 2 3-0 2-2 0作者简介:王晨雨(19 9 7 一),女,河南郑州人,硕士,主要从事水文水资源监测评价方面的研究工作。E-mail:w a n g c y mw r.g o v.c n文献标识码:A文章编号:16 7 4-9 40 5(2 0 2 3)0
5、 4-0 0 0 7-0 7政务信息系统整合4-5 等管理要求,从全局和根本上支撑和服务国家、流域、区域水资源精细化管理,还存在一定的差距。为解决上述问题,水利部依托全国一体化在线政务服务平台,着力完成各层级取用水管理业务信息系统整合,建成国家、省两级取用水管理平台,实现数据资源的有效汇聚、充分共享,全过程留痕,全流程监管,提升在线监管整体水平,形成水资源监管一张图,全面提升数据监管、智慧监管能力,实现取用水业务“一网统管”。为优化全国取用水平台整合过程,本研究以知识图谱技术为主要抓手,就系统整合中呕须突破的一数一源、数据融合、监管产品等难点进行探索研究。1知识图谱1.1有有关概念知识图谱的早
6、期理念源于万维网之父TimBerners-Lee关于语义网的设想,旨在采用图结构建模和记录世界万物之间的关联关系和知识,以便有效实现更加精准的对象级搜索。应现代知识图谱规模化扩展的要求,通常采用以三元组为基础的较为简单实用的知识表示方法,基本组成单位为“实体一关系一实体”“实体一属性一属性值”三元组,实体间通过关系相互联结,构成网状的知识结构7 1-3 18 。知识图谱的8相关技术已经在搜索引擎、智能问答、语言理解、推荐计算、大数据决策分析等众多领域得到广泛的实际应用。近年来,随着自然语言处理、深度学习、图数据处理等众多领域的飞速发展,知识图谱在自动化知识获取、知识表示学习与推理、大规模图挖掘
7、与分析等领域又取得了新进展,并在行业(领域)9 得以有效应用,如自然灾害应急知识图谱10 、电力系统知识图谱 、海洋知识服务体系12 等。1.2构建方法知识图谱由模式层和数据层2 部分构成113 。知识图谱在构建方法上分为以下3 种7 16-8:1)自底向上。从底层数据源中提取实体、属性和关系,加入到知识图谱的数据层,然后将这些知识要素进行归纳组织,逐步往上抽象为概念,最后形成模式层。2)自顶向下。从最顶层的概念开始构建模式层本体,然后细化概念和关系,形成结构良好的概念层次树,将知识抽取得到的实体匹配填充到构建的模式层本体中。3)二者混合。在知识抽取的基础上归纳构建模式层,之后可对新的知识和数
8、据进行归纳总结,从而迭代更新模式层。2全国取用水平台知识图谱2.1需求分析全国取用水平台依托水利部政务云平台建设,需对原分散在国家水资源信息管理、取水许可审批、取序号表结构类别1取水许可审批信息2证照管理信息3456789101112131415161718水利信息化水许可电子证照、用水统计直报、水资源税水量核定、取水计划、取水计量监管等多个系统的信息进行融合,但各系统内有关取用水户的信息都不全面,单个系统均不能提供满足管理部门对于取用水户、许可审批、计划执行、计量设施安装、计税水量核定等情况开展监管的全面信息,同时,涉及系统比较多,逻辑关系复杂。前期初步剔除多个系统18 个模块8 0 张表的
9、不相关信息,整合为8 个模块18 张表,如表1所示。各模块间主要关联关系图,如图1所示,其中取水许可审批信息来源于取水许可审批系统,证照管理信息来源于取水许可电子证照系统,取水计划信息来源于取水计划系统,水资源税费信息来源于水资源税水量核定系统,用水统计信息来源于用水统计直报系统,计量管理信息来源于取水计量监管系统,水量监测信息来源于国家水资源信息管理系统,行政区划信息在多系统均有涉及。虽已初步整合,但模块内依然包含大量过程类数据信息,如证照管理模块中的发证机关、发证机关代码等无关取用水直接监管数据产品需求的属性数据。各模块间还存在一数多源、标准不统一、计量单位不一致等问题,如首次发证证件编号
10、属性,在水资源税费、取水计划、计量管理等其他模块也存在,且因存在同一社会信用代码对应多个证件编号现象,造成各模块间同一属性的属性值不尽相同,导致户证点关系不准确、不唯一,户对应对象(户)数量不一致,名称不匹配等情况。表1取用水平台表结构表标识EC_APPLY_INFOEC_BASE_INFO_WRWR_PLAN_MONTH_WATER取水计划信息WR_PLAN_YEAR_WATERWR_PLAN_AREA_GROUPWI_WATER_SUPERVISION_MAINWI_WATER_SUPERVISION_SUBSET水资源税费信息WI_TAX_FUNDWI_TAX_CRITERIONWRTJ
11、_ML_ALL_VIEW用水统计信息WRTJ_TB_ALL_VIEWWI_STD_BK_MEASURE_B计量管理信息WI_WR_DAY_W_RWI_MEASURE_RCD_RWR_MP_B水量监测信息WR_DAY_W_RWI_EXAMINE_RELATION行政区划信息GW_SYS_ADDVCD2023(4)表名取水许可审批数据表取水许可电子证照基本信息证照月度取水计划表证照年度取水计划表区域取水计划表监审意见书主表监审意见书子表税源信息表税额标准表直报名录的基本信息表直报调查信息表计量设施信息表在线日水量表远程抄表信息表国控监测点基本信息表监测点日水量信息表点证关系表行政区划表第4期王晨雨
12、等:知识图谱技术在全国取用水平台的应用9项目项目设资项名称性质简编码)法定代表人审批批复时间取水用途取水类型水源地点类型单位行政名区划名录审核类型情况用水统计直管类型调查表审核类型状态因此,利用知识图谱技术,以取用水户为核心监管对象进行系统性梳理,整理数据源,建设一套全国统一的数据库表结构标准,形成一套真实且唯一的户证点关系,构建一套智能且有效的监管数据产品集,是实现“一网统管”“互联网+监管”系统功能需求的重中之重,其中统一规范的数据库表结构标准建设是关系到全国取用水平台整合成败的关键环节。2.2技术架构全国取用水平台知识图谱是将知识图谱技术应用于取用水管理的技术形式,旨在梳理多模块对象间的
13、关系,挖掘各模块关键信息项,剔除数据源重复项、差异项、不确定项等,更好地支撑全国取用水平台整合及各模块间的知识推理,实现取用水管理辅助分析及决策支持,属于在取用水领域开展知识图谱技术应用的尝试。基于全国取用水平台初步整合后各模块的数据库表结构标准、领域类知识图谱构建特性14-15,采用自顶向下方式构建全国取用水平台知识图谱,技术架构如图2 所示。3全国取用水平台知识图谱的构建3.1模式层构建模式层是知识图谱的概念模型和逻辑基础7 3,全国取用水平台知识图谱模式层构建,主要根据现有的(有效期)(地下水)发证日期水资源兰级证照管理取水许可审批取水年分季度(取水量)行政区(行政区取水量划名称地表水取
14、水(取水量)取水地址取水校全称人名称取水(取水量)用途流一社会信用代码身份证号监测点代码水源类型取水特水量监测征类型取水用途用水自最大类型图1各模块间主要关联关系图取水许可审批证照管理取水计划水资源税费数用水统计模式层概念抽取知识图谱构建属性提取关系抽取模式层更新数据层更新全国取用水平台知识图谱区域统计分析流域监管数据产品超许可超计划超管控图2 全国取用水知识图谱技术架构图行政区取水权)等级(年计划)(划编码)人代码水量税额标年许可维表D行政区划水量(划编码)行政区申报时间取水类型水源位类型类型首次发证证件编号抄春时段水量水量日水量抄表监测时间项目取水月份与统计仕量设施编码(计量方(取水权)(
15、式名称)人代码)计量管理水量监测行政区划数据层实体提取实体属性关系学习规则抽取抽取抽取自顶向下数据融合实体消歧实体对齐知识推理年度季度月度无证监管产品无计量水量不实管控一张图水资源税费划单计划单(取水权)拉类型)地下水)人代码)永量(地表水聚水(行政)中请地区计量管理+编码安装位置税费总额永量取水计划创建信息电报报年份月份水量10取水许可审批、证照管理、统计直报等模块信息整合后的结构化数据库,针对全国取用水平台整合要求,构造模式层的本体库16 158 4-58 5,进行本体概念定义、层次关系划分,属性关系提取,以及概念间语义关系定义。全国取用水平台知识图谱的模式层构建主要是地下水子类许可水量子
16、类地表水许可水量年度地表水计划水量年度地子类年度计下水计划水量区域地表水计划水量水利信息化建立取水证照、取水计划、取用水监测、取用水计量、用水统计、取用水税等6 类核心要素的取用水综合本体,利用本体的思想构建全国取用水平台知识图谱的模式层如图3 所示,可为数据层中具体实例的要素属性分解奠定理论框架基础。取水权许可取水水量用途计划单位类型月度计划水量子类划水量子类区域计划水量2023(4)取水水源取水权人名称类型类型人名称代码证编号取水信息取水信息水量属性计划类型水量属性水量属性水量属性首次发发证有效期日期地点证照信子类时间属性时间属性位置属性取水水量属性证照纳税信息取水子类计划子类取用水户(统
17、一社会)信用代码/人身份证号)子类取用水子类监测取水计税水量子类季度计税水量税款等次取用水税子类子类用水统计月度计税水量纳税信息时间属性税费总额纳税时间水量属性地表水统计水量子类取用水子类取水区域地时间下水计划水量3.1.1概念抽取概念抽取用于获取原数据库中的概念在取用水平台的概念定义及概念层次分类的集合。概念定义包括延续和重新定义2 种形式:对各表中名称、语义关系相同,整合至全国取用水平台不会发生冲突歧义的概念,可采用延续定义,如统一社会信用代码、取水权人代码、发证证件编号等;在各表中名称相同、语义关系不相同,整合至全国取用水平台产生歧义的概念,则采用重新定义,如多个系统中均含有“取水量”名
18、称,在平台整合中需重新定义证照管理模块中的取水量为许可水量、用水统计模块中的取水量为统计水量、水量监测模块中的取水量为监测水量等。概念层级分类可表示为取水计划中月度、年度,区域、流域等时空尺度层级,以及统计水量中包含地表水、地下水、其他等统计水量的从属关系层级。3.1.2属性提取属性提取用于获取原数据库中可服务于“一网统计子类/地下水计量时间属性名录信息水量属性计量设备时间属性监测监测水量时间本体概念图3 全国取用水平台知识图谱模式层图统管”的平台整合目的本体的相关属性,如时间、地点、水量等属性。提取过程中以具有一定法律效力的证照管理模块信息所含属性为基准,提取其他模块中不同属性进行补充,同一
19、属性及不直接服务于监管数据产品的信息不提取。如提取某用水户同一本体在证照管理模块基本信息中包含的时间、地点等属性信息,则不再提取其他模块相关信息。3.1.3关系抽取关系抽取用于构建概念之间的关系。对于全国取用水平台中的概念,通过识别概念间的语义关联关系,将关系抽取出来。如平台整合以取用水户为核心监管对象,以电子证照模块的首次发证证件编号、统一社会信用代码/身份证号为“根”,基于证照管理、取水计划、水量监测、计量管理、用水统计、水资源税等模块信息,梳理户、证、点、水量(许可、计划、监测、计量、统计、计税等水量)对应关系,抽取取用水户真实且唯一的关联关系。统计水水量子类量其他统监测点计量代码水量计
20、量时间本体属性计量设备编码名录类型语义关系统计时间计水量第4期王晨雨等:知识图谱技术在全国取用水平台的应用113.2楼数据层构建数据层是模式层的实例化和事实应用,全国取用水平台数据层的构建,是基于已有数据库、模式层良好的概念层次知识体系和规则关系,实现数据层对模式层的映射,主要包括实体抽取、数据融合。抽取的实体可以根据对应的概念,按照模式层的关系层次组成实体间的结构关系。3.2.1实体提取实体提取是从数据中抽取实体、属性与实体间的相互关系。针对结构化数据字段定义明确的特点及监管数据产品的需求,基于构建的全国取用水平台知识图谱模式层,设计相应字段的映射规则,从关系数据库中直接抽取实体名称及属性信
21、息,对象之间的语义关系可通过数据库的字段链接进行映射。全国取用水平台整合中实体、属性及语义关系的提取,一般以具有一定法律效力的证照管理模块所含的信息为基准,并合并实体在其他模块的属性、与其他实体的关联关系。根据管控需要,实体需着重以下几个方面的提取:1)户、证的对应关系梳理提取,以证照管理模块中的首次发证编号、用水统计模块中户的目录为主,其他模块户证信息为辅,完成取用水户目录的全量提取;2)户、证、点、水量、计量设施等全链条的对应关系梳理提取,基于户、证对应关系的梳理,完成各模块、监测或计量等水量对应的取水点及水量计量设施等关系的梳理提取。3.2.2数据融合由于数据来源和质量不同,信息抽取得到
22、的数据层中可能存在大量的穴余和错误,因此需要通过数据融合对抽取得到的数据进行梳理和规范化整合。数据融合的关键步骤包括实体对齐7 和实体消歧16 58-8 9.:1)实体对齐。实体对齐主要解决同一实体采用不同表达方式的问题,将同一实体的不同表达方式归一化表示,解决一数多源问题。例如,相同身份标识的用水户,在证照管理模块中用户名和水量监测模块中用户名可能不一致,实体对齐过程就是将不同模块抽取到的不同用户名明确为一个用户名。2)实体消歧。实体消歧主要解决不同实体采用相同名称的问题,从而建立准确的实体链接。在取用水平台的实际语言环境中,存在某个名称对应多个具体实体的问题。例如,用水统计模块的“统计水量
23、”、水资源税模块的“计税水量”在各自原系统中均使用“水量”代表,平台整合后易混淆,实体消歧过程就是根据水量所在不同模块及关联关系,区分不同模块的水量,并准确链接。3.3矢知识推理知识推理16 59 2-59 3 是关系的不完备性,挖掘或推断出未知或隐含的语义关系。全国取用水平台知识图谱中的知识推理,通过对已有知识或关系的逻辑分析,制定推理规则,并从各模块中提取相关知识,从而挖掘或推断出新的知识或语义关系。如超许可、超计划等监管业务规则,一般提取取用水户的计量水量信息,与对应的许可、计划水量等信息指标值比对,大于指标值即判断为疑似违规行为;无证取水监管规则为存在于用水统计模块的取用水户,未在证照
24、管理模块里溯源的,即判断为疑似无证取水行为。取用水户关系梳理及监管产品逻辑关系如图4所示。3.4知识更新全国取用水平台中的取用水户监测计量、基础及业务管理等信息内容在不断增加和更新,平台整合完成后还需要动态构建和迭代更新,不断增加新的知识、删除旧的知识并相应调整知识图谱的结构,保障知识的时效性。知识更新有以下2 种层次7:1)模式层更新。当新增的知识中包含了概念、关系、属性及其类型变化时,需要在模式层中更新知识图谱的数据结构,包括对概念、关系、属性及其类型的增、删、改操作。例如,随着监管水平的提升,监管需求的增加,增添新的本体概念、属性等。2)数据层更新。主要指新增实体或更新现有实体的关系、属
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 知识 图谱 技术 全国 取用 水平 应用
![提示](https://www.zixin.com.cn/images/bang_tan.gif)
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。