![点击分享此内容可以赚币 分享](/master/images/share_but.png)
DB52∕T 1541.2-2020 政务数据平台 第2部分:数据归集规范(贵州省).pdf
《DB52∕T 1541.2-2020 政务数据平台 第2部分:数据归集规范(贵州省).pdf》由会员分享,可在线阅读,更多相关《DB52∕T 1541.2-2020 政务数据平台 第2部分:数据归集规范(贵州省).pdf(14页珍藏版)》请在咨信网上搜索。
1、 ICS 35.020 CCS L 70 DB52 贵州省地方标准 DB52/T 1541.22020 政务数据平台 第 2 部分:数据归集规范 Government data platform Part 2:data ingestion specification 2020 - 11 - 20 发布 2020 - 12 - 20 实施贵州省市场监督管理局 发 布 DB52/T 1541.22020 I 目 次 前言 . II 1 范围 . 1 2 规范性引用文件 . 1 3 术语和定义 . 1 4 缩略语 . 3 5 总体要求 . 3 6 网络环境 . 3 7 归集流程 . 4 8 数据采集
2、 . 4 9 数据清洗加工 . 5 10 数据整合 . 6 11 数据更新 . 6 DB52/T 1541.22020 II 前 言 本文件按照GB/T 1.12020标准化工作导则 第1部分:标准化文件的结构和起草规则的规定起草。 本文件是DB52/T 1541的第2部分。DB52/T 1541已经发布了以下部分: 第 2 部分:数据归集规范; 第 3 部分:数据存储规范。 请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别这些专利的责任。 本文件由贵州省大数据发展管理局提出。 本文件由贵州省大数据标准化技术委员会归口。 本文件起草单位:贵州省机械电子产品质量检验检测院、贵州中软
3、云上数据技术服务有限公司、云上贵州大数据产业发展有限公司、信通达智能科技有限公司。 本文件主要起草人:王嘉卉、宿睿智、刘彦嘉、田野、武波、徐凯琳、文小成、杨德康、朱小洪、冯丹尼、郑如顺、杨建雄、黄明锋、秦晓东、邵建平、戚玉峰、赵飞、张洋、孙瑾。 DB52/T 1541.22020 1 政务数据平台 第 2 部分:数据归集规范 1 范围 本文件规定了政务数据平台数据归集的术语和定义、缩略语、总体要求、网络环境、归集流程、数据采集、数据清洗加工、数据整合及数据更新。 本文件适用于政务数据平台可共享政务数据和可开放公共数据的归集。 2 规范性引用文件 下列文件中的内容通过文中的规范性引用而构成本文件
4、必不可少的条款。 其中, 注日期的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本 (包括所有的修改单)适用于本文件。 GB/T 38664.2-2020 信息技术 大数据政务数据开放共享 第2部分:基本要求 DB52/T 1540.3-2020 政务数据 第3部分:数据清洗加工规范 DB52/T 1541.3-2020 政务数据平台 第3部分:数据存储规范 3 术语和定义 下列术语和定义适用于本文件。 3.1 数据归集 data ingestion 面向特定场景或领域对数据进行采集、清洗加工和整合的活动。 3.2 贴源层 operational data store
5、存储由源系统采集而来、未经处理的原始数据。 3.3 公共层 common data model 存储经过清洗加工后符合质量要求的可复用的公共数据。 3.4 主题层 data mart 存储整合后面向业务、应用的数据集合。 DB52/T 1541.22020 2 3.5 (国家电子政务网)政务外网 NEGN extranet 满足各级政务部门面向社会提供服务和管理的业务网络,简称政务外网。 来源:GB/T 256472010,3.4.3 3.6 政务数据 government data 各级政务部门及其技术支撑单位在履行职责过程中依法采集、生成、存储、管理的各类数据资源。 注:根据可传播范围,政
6、务数据一般包括可共享政务数据、可开放公共数据及不宜开放共享政务数据。 来源:GB/T 38664.12020,3.1 3.7 结构化数据 structured data 一种数据表示形式, 按此种形式, 由数据元素汇集而成的每个记录的结构都是一致的并且可以使用关系模型予以有效描述。 来源:GB/T352952017,2.2.13 3.8 半结构化数据 semi-structured data 具有结构性,但结构变化大,且难以用结构化数据的处理方法将其放进二维表的数据。 示例:XML 文档内容,每项都被一对标记封起来,如,表面上看是结构化数据,但之间的数据却是千变万化,这是典型的半结构化数据。
7、来源:DA/T 822019,2.8 3.9 非结构化数据 unstructured data 不具有预定义模型或未以预定义方式组织的数据。 来源:GB/T352952017,2.1.25 3.10 数据剖析 data profiling 对数据的结构、内容、关系和来源进行调研,以达到认识数据的目的。 3.11 数据采集定义 data collection definition 基于数据剖析结果,明确待采集数据的存储结构、存储位置和采集策略。 DB52/T 1541.22020 3 3.12 数据读取 data extraction 将待采集数据从其原始存储区域读到临时存储区域的过程。 3.1
8、3 数据写入 data loading 将数据读取过程中临时存储的数据最终持久化存储的过程。 3.14 全量更新 full update 使用新的数据对历史数据进行完全覆盖。 3.15 增量更新 incremental update 将两次更新间隔发生变更的数据同步到存储区域。 4 缩略语 下列缩略语适用于本文件。 ACID:数据库事务特征原子性、一致性、隔离型和持久性(Atomicity Consistency Isolation Durability) CSV:逗号分隔文件格式(Comma-Separated Values) JSON:对象标记(JavaScript Object Nota
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- DB52T 1541.2-2020 政务数据平台 第2部分:数据归集规范贵州省 DB52 1541.2 2020 政务 数据 平台 部分 规范 贵州省
![提示](https://www.zixin.com.cn/images/bang_tan.gif)
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【曲****】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【曲****】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。