元数据管理在数据仓库的实践应用.docx
《元数据管理在数据仓库的实践应用.docx》由会员分享,可在线阅读,更多相关《元数据管理在数据仓库的实践应用.docx(10页珍藏版)》请在咨信网上搜索。
1、元数据管理在数据仓库的实践应用数仓宝贝库2021-11-16 18:22收录于合集#数据仓库19个点击上方蓝字关注我们I点击上方蓝字关注我们I数仓宝贝库,带你学数据!导读:元数据管理是企业数据治理的基础,是数据仓库的提升。作为一名数据人,首要 任务就是理解元数据管理。本篇文章将为大家梳理元数据的概念,介绍元数据管理在数据仓库的地位、场景及工具。总结元数据管理系统,是对一家公司数据更高的考验,想要搭建成功,至少满足以下条件:1. 整个公司数据的集成一一数据仓库的搭建整个公司业务流程的完善一一”业务中台“的实现2. 整个公司技术开发的统一一一“技术中台”的实现如果说数据仓库是数据的集成,那元数据管
2、理系统就是整个公司业务、技术、管理的统O从这个角度来看,元数据管理系统的定位是高于数据仓库的,这也是笔者虽然标题是数 据仓库的“元数据管理”,但花了大量篇幅在介绍元数据的原因。阿里所推崇的数据中台,理念上比拟接近数据仓库+元数据管理。但换个角度,任何业务、技术、数据的规范过程,短时间内都会对实际工作造成负面的 影响。不是所有人都能理解规范化所带来的优点,这里也需要一定权衡和反复的沟通。用ETL的开发举一个例子。 全部用SQL解决一一开发很快,结果也很少出错。但未来可能要读一个 上千行的SQLo全部用python解决一一开发、维护的代码门槛较高,且性能相比SQL 相差何止百倍。 python来调
3、度SQL 笔者较为推崇的方法,将处理逻辑变为python 的函数、类,但底层逻辑使用SQL实现。从而到达一个相对平衡的角度。因此,笔者认为,无论是数据人员还是IT开发、测试甚至产品工程业务,都应有元数 据的概念,记录有价值的元数据,利己利人。如果最终决定进行元数据管理系统的建设, 也会节约大量时间。-END-什么是数据仓库的元数据管理1、什么是元数据?元数据(Metadata),又称中介数据、中继数据,为描述数据的数据(data about data)。 抽象的描述:一组用于描述数据的数据组,该数据组的一切信息都描述了该数据的某方 面特征,那么该数据组即可被称为元数据。举几个简单例子:如果一本
4、书是一个数据”,那么它的书名、封面、出版社、作者、总页码就是它 的元数据。如果一个电影是一个数据,那么它的总时长、制作人、总导演、演员列表就是 它的元数据。如果数据库中某个表是一个数据,那么它的列名、列类型、列长度、表注释就 是它的“元数据”。只要有一类事物,就可以定义它的“元数据”。大多数时候,元数据可以根据代表意 义的不同分为业务元数据和技术元数据。2、什么是数据仓库?数据仓库,由数据仓库之父比尔恩门(Bill Inmon)于1990年提出,主要功能仍是将 组织透过资讯系统之联机事务处理(OLTP)经年累月所累积的大量资料,透过数据仓库 理论所特有的资料储存架构,做有系统的分析整理,以利各
5、种分析方法如联机分析处理、 数据挖掘(Data Mining)之进行,并进而支持如决策支持系统(DSS)、主管资讯系统(日S)之创立,帮助决策者能快速有效的自大量资料中,分析出有价值的资讯,以利决 策拟定及快速回应外在环境变动,帮助建构商业智能(Bl) o3、什么是数据仓库的元数据管理?映射、传输规那么清洗工具转换规那么汇总规那么数据定义数据日效值数据仓库模型数据质状数据组织源数据内部数据外部数据源系统逻钳模型一 源系统物理模型 源/外部数据结构定义、音i句定义数据导出属性 映射、/相关人员 元数据管理员 元数据分析员 数据仓库用户前端工具查询工具报表工具OLAP工具数据挖掘,、抽取方法数仓中
6、的元数据,主要记录各主题的定义、不同层级间的映射关系、监控数据仓库的数 据状态及ETL的任务运行状态。一般会通过元数据资料库来统一地存储和管理元数据, 其主要目的是使数据仓库的设计、部署、操作和管理能达成协同和一致。元数据是数据仓库管理系统的重要组成局部,元数据管理是企业级数据仓库中的关键组 件,贯穿数据仓库构建的整个过程,直接影响着数据仓库的构建、使用和维护。为什么数据仓库要进行元数据管理1、建设数据仓库所必须数据仓库是由外部数据、业务数据以及文档资料通过某些ETL工具得到的,如果没有 一个明确、清晰的规那么,根本不可能实现这个过程。2、帮助快速理解数仓系统一方面,数据仓库本质上是一个部门甚
7、至一个公司的重要工程,开发时间冗长。中间不 可防止的会产生人员流动,如果没有清楚的元数据,那会对整个系统乃和整个工程造成 重大影响;另一方面,数据仓库做为整个部门、公司的分析数据出口,并不仅仅对数据人员服务。 DM层对业务人员,DIM对其他开发人员都是不可防止的。如果有清楚的元数据来说明 数仓系统,就会节约双方大量的沟通时间。3、高效精准沟通一方面,元数据中的管理元数据会记录不同用户、角色、部门的数据权限。如果有数据 需要进行通知,那么可以快速查询系统进行群发邮件等方式进行沟通,从而防止了造成沟 通环节的缺人和多人情况发生。另一方面,在与产品沟通业务或是与研发沟通接口时;可以根据业务元数据,确
8、认彼此 沟通的指标、维度含义。从而在根源上防止交流的歧义。进而提高沟通效率。4、保证数据质量理想的元数据做到了对数据仓库结构的描述,仓库模式试图,维,度量,层次结构,到 处数据库的定义,以及数据集市的位置和内容。因此,我们可以很确定的判断哪些数据是肯定准确无误的、哪些数据是可能有问题的、 哪些数据是肯定有问题的。简单的说就是每一个字段都应该有它的取值范围、业务定义等信息,元数据定义好了自 然就可以应用到数据质量检测、评估等方面,进而通过数据质量管理流程真正提高企业 的数据质量。5、降低数据系统建设本钱假如元数据建设完备,所以取得信息会更准确快捷,使数据系统建设不返工或少返工, 减少分析工作量,
9、加强各方的统一理解以及沟通效率,进而使开发本钱最小。6、快速分析变更影响因元数据被集中维护并管理引用关系,当发生变更时,可以通过元数据管理系统以实时 分析出其所影响的业务功能、应用系统、涉及人员、是否涉及监管等影响信息。7、为未来做好准备大数据、人工智能、数据湖、数据中台、商业智能等企业的战略级应用系统能够依赖良 好的元数据管理而发挥出其应有的效果。数据仓库中元数据的组成元数据贯穿整个数据仓库,根据情况可以分为三种:业务元数据、技术元数据和管理元 数据。业务元数据元数据知识库7T技术元数据1、业务元数据业务元数据主要描述“数据”背后的业务含义,从业务角度描述业务领域的相关概念、 关系一一包括业
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据管理 数据仓库 实践 应用
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【二***】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【二***】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。