移动省级经营分析系统数据质量管理系统业务技术规范.doc
《移动省级经营分析系统数据质量管理系统业务技术规范.doc》由会员分享,可在线阅读,更多相关《移动省级经营分析系统数据质量管理系统业务技术规范.doc(106页珍藏版)》请在咨信网上搜索。
移动省级经营分析系统数据质量管理系统业务技术规范 中国移动通信企业标准 QB-J-XXX- 中国移动省级经营分析系统 数据质量管理系统 业务技术规范 (征求意见稿) 版本号:2.0 The Business and Technical Specification on Data Quality Management System in Business Analysis Support System V2.0 -05实施 -05发布 中国移动通信有限公司 发布 目 录 1. 范围 1 2. 引用标准 1 3. 术语和定义 1 4. 符号和缩略语 2 5. 概述 2 6. 总体说明 2 6.1 数据质量管理概述 2 6.2 主要内容 3 6.3 系统建设目标 3 6.4 实施建议 4 7. 数据质量管理需求 4 7.1 数据质量问题 4 7.1.1 信息问题域 5 7.1.2 技术问题域 6 7.1.3 流程问题域 7 7.1.4 管理问题域 8 7.2 系统功能需求 8 7.2.1 元数据管理 9 7.2.2 数据质量监控 9 7.2.3 项目管理支撑 9 8. 系统架构 9 8.1 系统体系 9 8.2 源系统层 10 8.2.1 经营分析系统数据处理流程 10 8.2.2 数据质量监控点 10 8.3 存储层 11 8.3.1 元数据存储 11 8.3.1.1 业务元数据 11 8.3.1.1.1 业务术语 11 8.3.1.1.2 业务描述 11 8.3.1.1.3 业务指标 11 8.3.1.1.4 业务规则 12 8.3.1.2 技术元数据 12 8.3.1.2.1 数据源接口 12 8.3.1.2.2 ETL过程 12 8.3.1.2.3 数据仓库和数据集市存储 13 8.3.1.2.4 分析应用 13 8.3.1.2.5 运行环境信息 14 8.3.1.2.6 质量管理过程 14 8.3.1.3 管理元数据 15 8.3.2 运行状态信息存储 16 8.3.3 质量管理知识存储 16 8.4 功能层 16 8.4.1 元数据管理 16 8.4.1.1 元数据维护 17 8.4.1.2 元数据导入/导出 17 8.4.1.3 同步检查 18 8.4.1.4 实体查询 19 8.4.1.5 过程查询 19 8.4.1.6 影响分析 19 8.4.1.7 血统分析 20 8.4.1.8 实体关联度分析 20 8.4.1.9 实体差异分析 20 8.4.1.10 版本管理 20 8.4.1.11 变更通知 21 8.4.2 质量监控支撑功能 21 8.4.3 知识库管理 21 8.4.3.1.1 知识积累和维护 21 8.4.3.1.2 知识使用 21 8.4.4 系统管理 21 8.5 应用层 21 8.5.1 数据质量监控 21 8.5.2 信息地图 22 8.5.3 需求变更影响评估 22 8.5.4 数据集市支撑 24 8.5.5 项目管理支撑 24 8.5.5.1 工作分配管理 24 8.5.5.2 系统使用状况分析 24 8.5.5.3 项目需求管理 24 8.5.5.4 项目组织架构管理 25 9. 数据质量监控模块 25 9.1 概述 25 9.2 数据质量监控模块的目标 25 9.3 数据质量监控模块功能要求 25 9.3.1 数据质量监控流程 25 9.3.2 采集 26 9.3.2.1 指导原则 26 9.3.2.2 信息采集 26 9.3.3 检查 27 9.3.3.1 数据质量检查基本功能 27 9.3.3.1.1 数据稽核 27 9.3.3.1.2 处理过程检查 30 9.3.3.2 数据质量检查点的部署方式 30 9.3.4 报告 31 9.3.4.1 检查结果报告基本过程 31 9.3.4.1.1 报告定义 31 9.3.4.1.2 报告生成 31 9.3.4.1.3 报告提示 31 9.3.4.2 检查结果报告的内容 31 9.3.4.3 告警管理 32 9.3.4.3.1 告警界面 32 9.3.4.3.2 告警形式 32 9.3.4.3.3 告警升级 33 9.3.4.3.4 告警恢复 33 9.3.5 处理 33 9.3.5.1 问题处理的阶段划分 33 9.3.5.2 问题隔离阶段 33 9.3.5.3 问题处理阶段 34 9.3.6 总结 34 9.3.6.1 总结的类型 34 9.3.6.2 问题总结 34 9.3.6.3 阶段性总结 34 9.4 数据质量监控模块技术实现 35 9.4.1 技术实现架构 35 9.4.2 数据质量检查代理 36 9.4.2.1 目录扫描模块 36 9.4.2.2 检查规则读取模块 36 9.4.2.3 数据质量检查模块 36 9.4.2.4 检查结果生成模块 36 9.4.2.5 代理活动采集模块 36 9.4.2.6 通信模块 37 9.4.3 数据质量监控服务器 37 9.4.3.1 用户管理模块 37 9.4.3.2 检查规则处理模块 37 9.4.3.3 代理配置处理模块 37 9.4.3.4 代理活动监控模块 38 9.4.3.5 检查结果处理模块 38 9.4.3.6 数据库接口模块 38 9.4.3.7 通信模块 39 9.4.4 数据质量检查客户端 39 9.4.4.1 检查规则查看 39 9.4.4.2 检查规则配置 39 9.4.4.3 代理配置 39 9.4.4.4 代理活动监控 39 9.4.4.5 检查结果查看 40 9.4.4.6 用户管理 40 9.4.4.7 通信模块 40 9.5 实施要求 40 9.6 场景描述 41 10. 数据质量管理流程 44 10.1 概述 44 10.2 管理机制 44 10.2.1 组织机构职责 44 10.2.1.1 角色与职责 44 10.2.1.1.1 项目负责人 44 10.2.1.1.2 项目经理 44 10.2.1.1.3 数据质量管理员 45 10.2.1.1.4 业务系统接口员 45 10.2.1.1.5 文档的设立和维护 45 10.2.2 相关外部组织 46 10.3 质量控制流程 46 10.3.1 需求变更控制流程 47 10.3.1.1 流程进入条件 47 10.3.1.2 流程产生文档 48 10.3.2 数据质量问题处理流程 48 10.3.2.1 流程进入条件 49 10.3.2.2 流程产生文档 49 10.3.3 指标口径及业务规则问题处理流程 50 10.3.3.1 流程进入条件 51 10.3.3.2 流程产生文档 51 10.3.4 元数据变更维护流程 52 10.3.4.1 流程进入条件 52 10.3.4.2 流程产生文档 52 10.3.5 错误数据维护流程 53 10.3.5.1 流程进入条件 53 10.3.5.2 流程产生文档 54 10.4 质量检查 54 10.4.1 管理流程检查 54 10.4.1.1 组织结构检查 54 10.4.1.2 管理流程及相关标准的检查 55 10.4.1.3 质量管理流程执行情况检查 55 10.4.2 元数据质量检查 55 10.4.2.1 及时性检查 55 10.4.2.2 完整性检查 56 10.4.2.3 准确性检查 56 11. 系统管理 56 11.1 概述 56 11.2 系统安全管理 57 11.3 系统版本管理 57 12. 编制历史 57 前言 为更好地及时获取、分析、评估和解决省级经营分析系统各环节的数据质量问题,保证数据质量的稳定可靠,需要构建一套省级经营分析系统数据质量内部控制的管理体系,利用数据质量监控模块进一步提升数据质量管理系统对经营分析系统的支撑能力,特制订本规范。 本标准由中国移动通信有限公司提出并归口。 本标准以中移有限业【 】XX号印发。 本标准起草单位:中国移动通信有限公司。 本标准主要起草人: 本标准解释单位:中国移动通信有限公司。 1. 范围 本规范包含了中国移动经营分析系统数据质量内部控制的管理体系,以及数据质量管理系统业务技术规范方面的内容。 本规范适用于中国移动省级经营分析系统数据质量管理系统(v2.0)的建设。 本规范重点描述了以元数据管理为基础的数据质量监控功能,引入数据质量监控模块,并提出了数据质量全程监控的概念。旨在为数据运营打下基础,提升数据质量管理能力,使经营分析系统具有更高的实用价值。 2. 引用标准 <中国移动省级经营分析系统数据质量管理系统业务技术规范(v1.5)> <中国移动经营分析系统元数据管理规范V1.0> <中国移动省级经营分析系统数据质量控制指导意见> 3. 术语和定义 序号 名词 解释 1 元数据 是描述经营分析系统中数据的数据,为数据质量管理等业务功能提供信息支撑。 2 技术元数据 技术元数据包含关于经营分析系统数据技术层面的信息,描述了数据源、ETL、数据仓库和数据集市、OLAP、一级经营分析系统接口等子系统的数据特征。 3 业务元数据 业务元数据用业务术语、名称、定义来描述经营分析系统中的各种业务信息,供业务人员使用。 4 管理元数据 管理元数据主要是指经营分析系统日常建设过程中,涉及开发、运维等管理流程的基本信息。 5 CWM CWM标准是OMG组织定义的数据仓库和相关系统的国际元数据标准,CWM标准的目的在于使得数据仓库和商业智能软件的元数据在分布异构的数据分析工具,数据仓库平台,元数据存储等系统之间交互。 6 信息地图 信息地图是在元数据基本功能基础上对经营分析基础元数据信息的全局、多视角的展现。 7 数据质量监控 自动获取经营分析系统各环节的数据质量信息,结合元数据库中的有关检查规则,对数据质量情况进行诊断,并及时向数据质量监控人员报告。 8 数据质量监控 代理(Agent) 是指部署在经营分析系统数据处理流程各阶段上的,完成数据质量情况采集、检查、报告等功能的驻留程序。 9 数据质量监控 服务器 对分布式数据质量监控代理进行管理和服务的程序模块。 4. 符号和缩略语 缩写 英文描述 中文描述 BOSS Business Operation Support System 业务运营支撑系统 ODS Operational Data Store 操作型数据存储 CORBA Common Object Request Broker Architecture 公共对象请求代理体系结构 CORBAIDL CORBA Interface Definition Language CORBA接口定义语言 CWM Common Warehouse Metamodel 公共仓库元模型 ETL Extraction Transformation Loading 抽取、转换和加载 JMI Java Metadata Interface Java元数据接口 OLAP On-line Analysis Process 在线分析处理 XMI XML Metadata Interchange XML元数据交换 5. 概述 中国移动省级经营分析系统(以下简称为省级经营分析系统)经过多年发展,已初步建立了数据质量管理机制,有效保障了经营分析系统的数据质量。随着省级经营分析系统价值的不断显现与稳步提升,以及IT系统安全管理、风险内部控制等重大管理举措的实施,各省公司对经营分析系统如何保障数据质量提出了更高要求。为了全面及时地采集、检查、报告、解决和总结经营分析系统各环节的数据质量问题,保证数据质量的稳定可靠,中国移动特制定<中国移动省级经营分析系统数据质量管理系统业务技术规范(v2.0)>(以下简称”本规范”),旨在指导和规范各省(直辖市、自治区)公司的数据质量管理系统的建设、工程实施以及日常运维管理工作。 6. 总体说明 6.1 数据质量管理概述 在经营分析系统发展的不同阶段,经营分析系统对数据质量的关注点也有所不同。早期对数据质量的关注点主要是提高数据准确性,随着系统功能和定位的不断延伸,用户关注的重点逐步由数据准确性扩展至完整性、一致性、及时性等方面,这些内容也属于数据质量的范畴。 根据中国移动省级经营分析系统前期的建设经验,当前系统关注的数据质量问题主要包括以下几个方面内容: 1. 数据质量的六大基本要素是否满足,所谓六大基本要素是指: Ø 完整性:主要包括实体缺失、属性缺失、记录缺失和字段值缺失四个方面; Ø 唯一性:指主键唯一和候选键唯一两个方面; Ø 一致性:指统一数据来源、统一冗余存储和统一数据口径; Ø 精确度:指计量误差、度量单位等方面的精确度; Ø 合法性:主要包括格式、类型、域值和业务规则的有效性; Ø 及时性:指数据刷新、修改和提取等操作的及时性和快速性。 2. 如何从用户视角衡量数据质量,重视用户对数据的满意程度; 3. 如何建立基于CWM规范的元数据管理功能平台,支持数据质量管理,为将来全网共享元数据奠定基础; 4. 如何建立数据质量监控手段,及时发现、报告、处理经营分析系统数据质量问题; 5. 如何经过建立有效的数据质量管理体系来保障和提升数据的价值。 6.2 主要内容 本规范用以指导经营分析系统数据质量管理系统建设的全过程。描述了经营分析系统数据质量管理需求及范围、数据质量管理总体应用体系框架,明确规定了数据质量管理系统中的元数据支撑功能及其它支撑功能,确定了数据质量管理的基本功能和流程,重点强调了数据质量监控模块的功能和作用。 有关元数据建设的详细内容请参见<中国移动省级经营分析系统数据质量管理系统业务技术规范(v1.5)>中的<附件1 省级经营分析系统元数据管理功能技术规范.doc>和<附件2 中国移动经营分析元数据管理规范.doc>,上述两个附件给出了元数据管理建设步骤的参考,包括省级元数据库存储逻辑模型、省级元数据库的访问接口实现方法、元数据管理工具选型参考标准等,为元数据支撑管理功能的建设提供参考依据。 6.3 系统建设目标 本规范借鉴了先期元数据试点和经营分析系统数据质量管理系统(v1.5)部分省份的建设经验,同时参考了<经营分析系统元数据管理规范v1.0>和OMG组织的CWM国际标准等文献,本期重点实现以下建设目标: 1. 在经营分析系统数据处理主要阶段设置数据质量监控点,支持对数据质量的全程监控。在各数据监控点上,实现多角度、多方式、可配置的约束规则,提供常见问题的自动处理方法。 2. 完善数据质量监控模块,建立有效的数据质量监控机制,提供全面及时的数据质量报告,控制和预防错误范围的扩大。加强数据质量监控技术与管理手段的配合,着重关注经营分析系统数据来源和数据输出的数据质量,明确相关责任。 3. 建设符合CWM规范的元数据管理平台,为全网经营分析系统的数据质量管理、数据资源管理和数据运营奠定基础。 6.4 实施建议 本规范是省级经营分析系统数据质量管理系统规划和建设的基本指导,各省在实施过程中,可根据实际需要以本规范为基础进行扩充与细化。建议如下: 1. 在建立数据质量管理系统后,需要建立配套的管理机制,确保有专人依照流程对数据质量问题进行管理和维护; 2. 元数据管理是本次经营分析数据质量管理系统的重要功能,是将来实现元数据共享和交换的基础。元数据提供了对数据本身的描述,是关于数据的数据,主要包括技术元数据、业务元数据和管理元数据。各省在遵循CWM标准的前提下,能够根据自身实际情况,决定自行建设还是采购元数据管理工具; 3. 各省能够根据自身业务情况扩展<中国移动省级经营分析系统数据质量管理系统业务技术规范(v1.5)>附件中的元数据存储逻辑模型,但必须遵循CWM元模型的扩展规则; 4. 本规范中列举的各类应用,如数据质量监控、信息地图、需求变更影响分析、项目管理支撑、数据集市支撑等应用是本期建设重点关注的内容,各省能够根据实际情况增加其它相关应用。 7. 数据质量管理需求 7.1 数据质量问题 经营分析系统数据质量问题按照问题的来源和具体原因,能够分为信息、技术、流程、管理四个问题域。如图7-1所示。 图7-1数据质量的四个问题域 7.1.1 信息问题域 图7-2信息问题域 信息类问题是由于对数据本身的描述理解及其度量标准的偏差而造成的数据质量问题。产生这部分数据质量问题的原因主要有:元数据描述及理解错误、数据度量的各种性质得不到保证和变化频度不恰当等。 元数据描述及理解错误中的相关元数据主要包括: Ø 业务元数据——主要包括业务描述、业务规则、业务术语、业务指标口径等。 Ø 技术元数据——主要包括接口规范、执行顺序、依赖关系、ETL转换、数据建模和工具等方面的内容。 数据度量和变化频度提供了衡量数据质量好坏的手段。数据度量主要包括完整性、唯一性、一致性、准确性、合法性。变化频度主要包括业务系统数据的变化周期和实体数据的刷新周期。 7.1.2 技术问题域 图7-3技术问题域 技术类问题是指由于具体数据处理的各技术环节的异常造成的数据质量问题,它产生的直接原因是技术实现上的某种缺陷。数据质量问题的产生环节主要包括数据创立、数据获取、数据传递、数据装载、数据使用、数据维护等方面的内容: 1、数据创立质量问题主要包括业务系统话单延迟入库、创立数据默认值使用不当和数据录入的校验规则不当,导致指标统计结果不一致、数据无效、记录重复等。 2、数据获取质量问题主要包括采集点不正确、取数时间点不正确以及接口数据在获取过程中失真。如,编码转换处理错误以及精度不够,导致指标统计结果不一致、数据无效等。 3、数据传递质量问题主要包括接口数据及时率低,接口数据漏传,网络传输过程不可靠,如包丢失,文件传输方式错误,传输技术问题,协议使用不当导致的数据不完整等。 4、数据装载质量问题主要包括数据清洗算法、数据转换算法、数据加载算法错误。 5、数据使用质量问题主要包括展示工具使用错误、展示方式不合理和展示周期不合理。 6、数据维护质量问题主要包括数据备份/恢复错误、数据的存储能力有限、维护过程缺乏验证机制和人为后台调整数据。 7.1.3 流程问题域 图7-4流程问题域 流程类问题是指由于系统作业流程和人工操作流程设置不当造成的数据质量问题,主要来源于经营分析系统数据的创立流程、传递流程、装载流程、使用流程、维护流程和稽核流程等各环节: 1、创立流程质量问题主要指操作员数据录入时缺乏审核流程; 2、传递流程质量问题主要指通信流程沟通不畅; 3、装载流程质量问题主要指清洗流程缺乏/不当、调度流程逻辑错误、数据加载流程逻辑错误及数据转换流程逻辑错误; 4、使用流程质量问题主要指数据使用流程缺乏流程管理; 5、维护流程质量问题主要指缺乏变更维护流程、缺乏错误数据维护流程、缺乏数据测试流程以及对人工后台调整数据没有严格的流程监控; 6、稽核流程质量问题主要指缺乏数据错误反馈流程。 7.1.4 管理问题域 图7-5管理问题域 管理类问题是指由于人员素质及管理机制方面的原因造成的数据质量问题,如人员管理、培训和奖励等方面的措施不当导致的管理缺失。 人员管理所产生的质量问题主要指: (1)针对省级数据质量问题,没有建立管理数据质量的专门机构,出现数据质量问题后无专人负责; (2)没有明确的数据质量目标; (3)经营分析系统中的数据质量问题的优先级不够; (4)集团公司缺少管理数据质量的管理办法等; 人员培训所产生的质量问题主要指对数据质量相关人员缺少长期培训计划; 经过上述对经营分析数据质量问题的分类,结合各省经营分析系统建设经验,信息、流程和技术三个方面的数据质量问题相对集中和可控,是本系统实施的重点。在管理方面,本规范侧重于提供对开发、运维管理流程方面的支撑,并对管理元数据及其管理范围进行了明确定义,具体参见第8章管理元数据的相关定义。 7.2 系统功能需求 在各省具体数据质量问题解决过程中,数据质量问题的定位和解决过程往往依赖具体人员的经验,问题处理效率和正确性难以保证。因此有必要引入元数据管理的相关功能,提供对数据模型、指标统计口径及处理过程等数据实体和处理的标准定义和描述。数据质量管理系统利用元数据库存储技术、业务、管理方面对数据质量的约束规范;利用知识库存储数据质量问题和处理过程;经过制定相关管理流程来保证经营分析数据质量的日常管理。 本规范介绍如何在基于元数据管理的基础上建立数据质量管理系统,并经过制定相关管理流程来保证经营分析数据质量的日常管理。 数据质量管理系统的基础是遵循CWM标准的元数据管理支撑功能的实施。 根据系统定位,数据质量管理系统与元数据管理支撑功能之间的关系如下: ¨ 数据质量管理包含元数据管理 ¨ 元数据管理功能为数据质量管理系统提供支撑 7.2.1 元数据管理 为了实施数据质量管理,需要业务数据的有关统计口径、数据来源、数据约束关系等元数据的支撑。数据质量管理系统要求建立符合国际主流规范CWM的元数据管理支撑平台。它负责管理整个经营分析系统的技术、业务和管理三类元数据,形成元数据全局视图,展现经营分析系统数据实体的组成、关系以及处理转换的过程。 7.2.2 数据质量监控 在数据质量管理系统中,数据质量监控是基础功能。数据质量监控实时采集数据处理过程的各个质量监控点上的质量信息,执行数据质量监控流程,进行数据稽核诊断,然后直观展现检查结果。数据质量管理人员可根据告警信息,采取相应的质量控制行动。最后,还应评估总结本次数据质量监控活动的有效性和及时性,以利于以后质量管理工作的改进。 在数据质量监控工作中对质量问题的监控、诊断和处理结果应整理形成质量问题处理案例,并记录到知识库中,以便进行知识共享。 7.2.3 项目管理支撑 数据质量管理也涉及经营分析系统相关项目的日常管理。将项目管理的内容纳入质量管理,可全面、及时记录系统的建设状况和使用情况,有效支持经营分析系统的全员使用。项目管理支撑包括:工作分配管理、系统使用状况分析等。 8. 系统架构 8.1 系统体系 数据质量管理系统按照体系结构划分为源系统层、存储层、功能层和应用层,体系结构如图8-1所示: 图8-1数据质量管理系统体系结构 8.2 源系统层 8.2.1 经营分析系统数据处理流程 经营分析系统的数据处理流程主要涉及源系统接口数据、ETL过程、数据仓库、数据集市、前端应用等处理阶段。数据质量管理系统对数据的管理和监控范围涵盖了全部这些处理阶段。 8.2.2 数据质量监控点 数据质量管理系统在数据处理的各阶段都应设立数据质量监控点,并使稽核诊断工作尽量前移。本期系统规定的数据质量监控点设置如下: (1)各数据源接口 (2)ETL处理过程(对数据抽取、转换的主要阶段,以及加载到数据仓库前都应设置监控点) (3)数据仓库(对各种数据粒度的汇总应设置监控点) (4)数据集市(对地市和部门的集市分别应设置监控点) (5)前端展现应用 8.3 存储层 存储层中存储的信息主要包括三个部分: (1)元数据库:存储技术元数据、业务元数据和管理元数据,为数据质量管理系统提供基本的数据实体和处理描述及其映射关系,是质量管理的支撑基础; (2)运行状况信息库:存储从各个数据质量监控点上采集的有关系统运行状况的信息及质量稽核过程信息,是稽核诊断的主要输入信息; (3)数据质量知识库:存储数据质量管理中对质量问题的识别、诊断和处理结果的记录信息,作为解决质量问题的知识共享。 以上三种数据库,在逻辑上可进行独立设计,在物理实现上能够部署在同一台服务器上。 8.3.1 元数据存储 元数据是数据质量管理系统实现的核心,是描述和控制经营分析系统中数据的数据,为数据质量管理体系架构的功能层和应用层提供信息支撑。元数据库中存储的元数据分为三类:技术元数据、业务元数据和管理元数据。 8.3.1.1 业务元数据 本部分将业务元数据划分为业务术语、业务描述、业务指标和业务规则四个部分,其中业务规则、业务术语和业务描述共同完成对业务相关信息的事实表述。数据质量管理系统经过对这些业务元数据的映射,能够得到对应的数据质量检查规则。各省公司能够根据自身业务需求对业务元数据主题进行扩充,扩充的元数据主题必须遵循CWM元数据扩展规范。 8.3.1.1.1 业务术语 是一个名词或者名词短语,是对一种共识的定义,例如:一个有效的账户被定义为此账户有余额且其有效期未过。 8.3.1.1.2 业务描述 提供对省公司各项主要业务的统一描述,这部分内容应与仓库模型的主题信息、相关业务的统计指标建立关联,描述内容包括: ¨ 业务基本描述 ¨ 业务管理规定,包括业务组织、业务流程、资费标准 ¨ 业务统计 业务描述是一个完整的描述,经过动词来连接术语使其成为一个有效的声明,例如:开通具体业务的客户必须至少拥有一个有效的账户。 8.3.1.1.3 业务指标 面向业务分析人员,对业务关键信息的解释。 业务指标需要提取的元数据主要包括指标标识、指标名称、描述信息、建立时间、所属部门、创立者、类别、数据来源等。 8.3.1.1.4 业务规则 业务规则是一种描述信息,定义和约束了部分业务逻辑,能够用于对业务逻辑结构进行验证,用于控制或者影响业务逻辑的行为。 8.3.1.2 技术元数据 技术元数据包含关于经营分析系统数据技术层面的信息,描述了数据源接口、ETL、数据仓库和数据集市、一级经营分析系统接口等子系统的数据特征。根据经营分析系统的特点和经营分析系统数据质量管理的具体要求,本部分将技术元数据分为数据源接口、ETL过程、数据仓库和数据集市存储、分析应用、运行环境信息、质量管理过程六个部分,对各部分所包含的实体进行说明。 8.3.1.2.1 数据源接口 经营分析系统的数据来源主要是外部的操作型应用系统,经营分析系统管理的数据源接口元数据主要是关于BOSS、客服、网管、智能网、DSMP、彩铃等外部系统与经营分析系统间接口的相关信息,包括: ¨ 运行环境相关信息 主要包含相关系统的主机信息、操作系统信息、数据库信息等; ¨ 数据接口定义信息 描述源系统数据接口的定义信息,包括接口数据实体结构(主题信息、实体定义、实体内部列定义、关键字、索引定义等)、接口数据实体间关系。 8.3.1.2.2 ETL过程 ETL过程中的元数据管理内容主要是ETL规则,包括源系统数据到数据仓库的映射关系、ETL程序结构信息、数据转换和清理规则等,主要内容有: ¨ 接口抽取 描述数据抽取过程的相关信息,针对具体接口,主要包含: 1) 接口抽取条件:接口抽取的前置条件和数据条件; 2) 接口抽取周期:日、月等; 3) 接口抽取时间:周期内的抽取时间; 4) 接口抽取方法:增量、全量等; ¨ 数据清洗、转换、装载 描述接口数据到仓库数据的数据处理过程信息,包括源系统数据到数据仓库的映射关系、ETL程序结构信息、数据转换和清理规则等。 8.3.1.2.3 数据仓库和数据集市存储 数据仓库存储涉及ODS、仓库底层数据、集市数据等基本信息,以及数据流处理逻辑相关信息的提取,具体包括: ¨ 数据仓库逻辑模型 逻辑数据模型是企业元数据的重要组成部分,其实现方式主要是将建模工具(例如:ERWIN)中的模型信息纳入到元数据管理中。 ¨ 数据存储结构信息 这部分内容反映了数据仓库的物理实体信息。数据仓库内部的结构数据管理内容繁杂,主要有ODS和数据仓库的数据结构、数据定义、物理数据模型的结构、程序代码描述、数据库目录以及文件规划等信息。其中,数据库目录包括需纳入管理的表、关系以及索引和视图的定义等。 ¨ 数据流及其处理逻辑 这部分内容描述整个数据仓库中数据的流向、数据的处理逻辑、数据仓库各应用程序模块接口等系统全局性的信息。数据流向和数据处理逻辑信息是进行系统开发、维护、升级前和数据变更前的影响分析的重要信息源。 ¨ 数据生命周期信息存储和检索 该部分内容主要记录了数据在不同生命周期所存放的位置。经过元数据管理系统对不同类型以及不同生命周期的数据进行有效管理,支持对处于生命周期不同阶段的数据进行信息检索。 数据生命周期管理的具体解释请参见<中国移动省级经营分析系统规范总册(v2.0)>。 8.3.1.2.4 分析应用 在数据仓库或数据集市基础上,经营分析系统提供了KPI、OLAP、综合报表、数据挖掘、一级经营分析系统接口等应用,分析应用元数据是指这些上层应用的相关信息,主要包括: ¨ 指标技术定义信息 包含指标定义、对应维度定义、指标统计口径、指标关系等信息; ¨ 多维数据信息 主要指对多维数据相关信息的提取,主要包括: 1) 多维主题基本信息:包含主题与指标、维度等的关系; 2) 多维数据库信息:鉴于主流的多维数据库都支持CWM标准,针对各省的建设情况,能够考虑选用元数据工具进行相关信息的提取; ¨ 一级经营分析系统接口 作为数据分发过程,与ETL处理过程对应,主要包括一级经营分析接口的定义、标准代码定义、数据转换规则以及其它涉及一级经营分析系统接口数据生成上传的元数据信息; ¨ 数据挖掘信息 ¨ 应用使用状况信息 主要记录各业务应用的使用频次、使用人数等信息。 8.3.1.2.5 运行环境信息 描述经营分析系统运行环境的相关信息,主要有: ¨ 任务调度信息 经营分析系统处理涉及多个环节的大量任务,一般由一个统一的任务调度系统集中控制这些任务的执行,获取这些任务的相关信息对于了解和优化系统至关重要。主要提取信息有:任务基本信息、任务依赖信息、任务执行信息等。 ¨ 系统运行环境信息 包括经营分析系统相关的主机信息、操作系统信息、文件系统信息、系统处理目录信息、数据库信息、表空间信息等。 8.3.1.2.6 质量管理过程 质量管理过程中的元数据主要是根据数据质量管理的要求,为支撑数据质量检查的相关功能,从监控经营分析数据及系统运行情况角度,抽取出的数据质量检查方法和标准。 质量管理过程中的元数据的规则有两个来源:一个来源是系统各个处理环节的技术元数据,反映的是系统技术层面的处理情况,如数据量和指标值多少是合理,处理过程应该在什么周期内什么时间段内完成才正常,主机资源、表空间、文件系统的使用应该控制在什么样的阀值下系统处理才不会有问题;另一个来源是业务规则、指标口径等业务元数据,一般会把业务规则的信息转化成技术化的规则、算法和度量标准,如指标间的稽核关系,而类似指标合理性的度量标准,则会根据业务发展情况而不断变化。 主要包括以下内容: 1、 规则库 规则是数据质量检查的具体标准,主要包括经营分析数据的约束规则和合理性规则,以及检查数据处理过程及处理环境是否正常的规则等。 规则分为三类:约束规则、计算规则和条件规则。 ¨ 约束规则描述了一种无条件必须为真或假的强制规则。这种约束能够是结构化 (Structural)约束,也能够是行为(Behavioral)约束。 1) 结构化约束:当创立术语或者改变术语之间的关系的时候,结构化约束能够保证术语的完整性; 2) 行为约束:典型地被定义为”前置条件”和”后置条件”。只有在符合”前置条件”的情况下,操作才能够正确地执行;”后置条件”保证了操作结果的正确性,”后置条件”表示该行为是否满足了其预期的结果。例如:客户在开户时余额为0,在能够使用移动业务之前,必须先充值,这里前置条件就是必须先充值,而后置条件是指所办理的业务是否成功办理; ¨ 计算规则描述计算关系,例如:月末余额=上月末余额+本月充值金额-本月消费金额; ¨ 条件规则描述当条件成立时,触发相关的事件或事务,例如:预付费客户的帐户余额小于0,则对其实施停机操作。 2、 算法库 主要是指支撑上述检查规则所需要的基本算法的集合,结合具体的规则由数据质量检查相关功能调用。 3、 度量信息 度量信息是数据质量检查的基本依据,它反映了数据质量的衡量标准,也是数据质量管理系统技术元数据的一个重要组成部分。 度量信息是经验的积累,需要在数据质量不断建设的过程中逐步精确化,随着衡量标准的不断细化和精确,经营分析系统数据质量也会不断提高。 8.3.1.3 管理元数据 管理元数据主要是指经营分析日常建设过程中,涉及开发、运维管理各方面的基本信息,本规范明确要求对管理元数据进行存储,在此基础上对系统需求开发和日常运维管理流程提供IT化支撑,从管理流程角度对经营分析数据质量提供保证。管理元数据主要包括: ¨ 管理流程定义 指经营分析需求开发、运维各管理流程及其具体步骤、步骤输入输出和参与角色的描述; ¨ 角色及职责定义 指参与经营分析需求开发、运维各管理流程的角色及其具体承担职责的描述; ¨ 人员组织信息及工作内容分配 指需求开发和系统运维过程中各参与人员承担的角色及具体负责的工作内容描述,如具体某个需求开发由谁牵头负责,ETL某个加载转换过程由谁负责维护等系统访问情况信息。 以上信息各省能够根据各自的管理流程情况,制定相关模板,进行手工整理。 8.3.2 运行状态信息存储 运行状态信息库存储在数据质量检查点上产生的,描述系统运行情况的各种度量数据,包括数据量、数据处理周期、数据处理过程运行情况等。系统运行状态信息包括以下几类: (1) 源数据状况 主要包括:文件传送完整状况、文件记录合法状况、文件传送及时状况、文件加载正确状况等。 (2)ETL运行状况 主要包括:作业运行成功状况、作业失败信息、抽取和变换数据量、加载数据量及正确状况、作业调度和操作状况等。 (3)数据仓库运行状况 主要包括:实体主键取值合法状况、实体属性的完整状况、外键取值和引用合法状况、属性合法状况、数据汇总状况等。 (4)数据集市运行状况 主要包括:实体主键取值合法状况、实体属性的完整状况、外键取值和引用合法状况、属性合法状况、实体合法状况(属于某地市或部门)、数据汇总状况等。 (5)前端运行状况 主要包括:OLAP加载状况、 OLAP运行状况、 OLAP存储情况、应用运行合法和成功状况、应用满意状况等。 8.3.3 质量管理知识存储 数据质量知识库存储数据质量问题的识别、诊断、处理各阶段的相关信息。这些信息可作为解决质量问题的历史档案进行知识共享。这些知识以关键字的形式进行索引和分类管理。知识库中的内容可分为以下几类: (1)源数据类型问题 (2)ETL类型问题 (3)仓库类型问题 (4)集市类型问题 (5)前端类型问题 8.4 功能层 功能层提供了数据质量管理系统所能提供的基本功能,它为前端的应用提供了基本的功能支撑。主要包括元数据管理和数据质量监控模块,具体内容如下: 8.4.1 元数据管理 作为数据质量管理系统的元数据基本支撑,方便用户对系统的理解,并在系统数据质量出现问题时,便于问题的定位。主要包括: 8.4.1.1 元数据维护 元数据维护提供对元数据的增加、删除、修改等基本操作,另外,还应支持实体、实体间关系的建模,数据处理过程的描述等功能。对于元数据的- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 移动 省级 经营 分析 系统 数据 质量管理 业务 技术规范
咨信网温馨提示:
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【天****】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【天****】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【天****】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【天****】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。
关于本文