建设数据仓库的八个步骤.doc
《建设数据仓库的八个步骤.doc》由会员分享,可在线阅读,更多相关《建设数据仓库的八个步骤.doc(16页珍藏版)》请在咨信网上搜索。
大数据技术部 建设数据仓库的八个步骤 2017年04月25日 编制 6 建设数据仓库的八个步骤 摘要: 建立数据仓库是一个解决企业问题的过程,业务人员往往不懂如何建立和使用数据仓库,发挥其决策支持的作用;信息部门的人员往往又不懂业务,不知道应该建立哪些决策主题。 关键词: 数据仓库元数据 建设数据仓库 建立数据仓库是一个解决企业问题的过程,业务人员往往不懂如何建立和使用数据仓库,发挥其决策支持的作用;信息部门的人员往往又不懂业务,不知道应该建立哪些决策主题,从数据源中抽取哪些数据。因此数据仓库的项目小组应该由业务人员和信息部门的人员共同组成,双方需要相互沟通,协作开发数据仓库。 开发数据仓库的过程包括以下几个步骤。 1.系统分析,确定主题 建立数据仓库的第一个步骤就是通过与业务部门的充分交流,了解建立数据仓库所要解决的问题的真正含义,确定各个主题下的查询分析要求。 业务人员往往会罗列出很多想解决的问题,信息部门的人员应该对这些问题进行分类汇总,确定数据仓库所实现的业务功能。一旦确定问题以后,信息部门的人员还需要确定一下几个因素: ·操作出现的频率,即业务部门每隔多长时间做一次查询分析。 ·在系统中需要保存多久的数据,是一年、两年还是五年、十年。 ·用户查询数据的主要方式,如在时间维度上是按照自然年,还是财政年。 ·用户所能接受的响应时间是多长、是几秒钟,还是几小时。 由于双方在理解上的差异,确定问题和了解问题可能是一个需要多次往复的过程,信息部门的人员可能需要做一些原型演示给业务部门的人员看,以最终确定系统将要实现的功能确实是业务部门所需要的。 2.选择满足数据仓库系统要求的软件平台 在数据仓库所要解决的问题确定后,第二个步骤就是选择合适的软件平台,包括数据库、建模工具、分析工具等。这里有许多因素要考虑,如系统对数据量、响应时间、分析功能的要求等,以下是一些公认的选择标准: ·厂商的背景和支持能力,能否提供全方位的技术支持和咨询服务。 ·数据库对大数据量(TB级)的支持能力。 ·数据库是否支持并行操作。 ·能否提供数据仓库的建模工具,是否支持对元数据的管理。 ·能否提供支持大数据量的数据加载、转换、传输工具(ETT)。 ·能否提供完整的决策支持工具集,满足数据仓库中各类用户的需要。 3.建立数据仓库的逻辑模型 具体步骤如下: (1)确定建立数据仓库逻辑模型的基本方法。 (2)基于主题视图,把主题视图中的数据定义转到逻辑数据模型中。 (3)识别主题之间的关系。 (4)分解多对多的关系。 (5)用范式理论检验逻辑数据模型。 (6)由用户审核逻辑数据模型。 4.逻辑数据模型转化为数据仓库数据模型 具体步骤如下: (1)删除非战略性数据:数据仓库模型中不需要包含逻辑数据模型中的全部数据项,某些用于操作处理的数据项要删除。 (2)增加时间主键:数据仓库中的数据一定是时间的快照,因此必须增加时间主键。 (3)增加派生数据:对于用户经常需要分析的数据,或者为了提高性能,可以增加派生数据。 (4)加入不同级别粒度的汇总数据:数据粒度代表数据细化程度,粒度越大,数据的汇总程度越高。粒度是数据仓库设计的一个重要因素,它直接影响到驻留在数据仓库中的数据量和可以执行的查询类型。显然,粒度级别越低,则支持的查询越多;反之,能支持的查询就有限。 对数据操作的效率与能得到数据的详细程度是一对矛盾,通常,人们希望建成的系统既有较高的效率,又能得到所需的详细资料。实施数据仓库的一个重要原则就是不要试图包括所有详细数据,因为90%的分析需求是在汇总数据上进行的。试图将粒度细化到最低层,只会增加系统的开销,降低系统的性能。 5.数据仓库数据模型优化 数据仓库设计时,性能是一项主要考虑因素。在数据仓库建成后,也需要经常对其性能进行监控,并随着需求和数据量的变更进行调整。 优化数据仓库设计的主要方法是: ·合并不同的数据表。 ·通过增加汇总表避免数据的动态汇总。 ·通过冗余字段减少表连接的数量,不要超过3~5个。 ·用ID代码而不是描述信息作为键值。 ·对数据表做分区。 6.数据清洗转换和传输 由于业务系统所使用的软硬件平台不同,编码方法不同,业务系统中的数据在加载到数据仓库之前,必须进行数据的清洗和转换,保证数据仓库中数据的一致性。 在设计数据仓库的数据加载方案时,必须考虑以下几项要求: ·加载方案必须能够支持访问不同的数据库和文件系统。 ·数据的清洗、转换和传输必须满足时间要求,能够在规定的时间范围内完成。 ·支持各种转换方法,各种转换方法可以构成一个工作流。 ·支持增量加载,只把自上一次加载以来变化的数据加载到数据仓库。 7.开发数据仓库的分析应用 建立数据仓库的最终目的是为业务部门提供决策支持能力,必须为业务部门选择合适的工具实现其对数据仓库中的数据进行分析的要求。 信息部门所选择的开发工具必须能够: ·满足用户的全部分析功能要求。数据仓库中的用户包括了企业中各个业务部门,他们的业务不同,要求的分析功能也不同。如有的用户只是简单的分析报表,有些用户则要求做预测和趋势分析。 ·提供灵活的表现方式。分析的结果必须能够以直观、灵活的方式表现,支持复杂的图表。使用方式上,可以是客户机/服务器方式,也可以是浏览器方式。 事实上,没有一种工具能够满足数据仓库的全部分析功能需求,一个完整的数据仓库系统的功能可能是由多种工具来实现,因此必须考虑多个工具之间的接口和集成性问题,对于用户来说,希望看到的是一致的界面。 8.数据仓库的管理 只重视数据仓库的建立,而忽视数据仓库的管理必然导致数据仓库项目的失败。数据仓库管理主要包括数据库管理和元数据管理。 数据库管理需要考以下几个方面: ·安全性管理。数据仓库中的用户只能访问到他的授权范围内的数据,数据在传输过程中的加密策略。 ·数据仓库的备份和恢复。数据仓库的大小和备份的频率直接影响到备份策略。 ·如何保证数据仓库系统的可用性,硬件还是软件方法。 ·数据老化。设计数据仓库中数据的存放时间周期和对过期数据的老化方法,如历史数据只保存汇总数据,当年数据保存详细记录。 然而,元数据管理贯穿于整个系统的建设过程中,元数据是描述数据的数据。在数据采集阶段,元数据主要包括下列信息: ·源数据的描述定义:类型、位置、结构。 ·数据转换规则:编码规则、行业标准。 ·目标数据仓库的模型描述:星型/雪花模型定义,维/事实结构定义。 ·源数据到目标数据仓库的映射关系:函数/表达式定义。 ·代码:生成转换程序、自动加载程序等。 在数据管理阶段,元数据主要包括下列信息: ·汇总数据的描述:汇总/聚合层次、物化视图结构定义。 ·历史数据存储规则:位置、存储粒度。 ·多维数据结构描述:立方体定义、维结构、度量值、钻取层次定义等。 在数据展现阶段,元数据主要包括以下信息: ·报表的描述:报表结构的定义。 ·统计函数的描述:各类统计分析函数的定义。 ·结果输出的描述:图、表输出的定义。 元数据不但是独立存放,而且对用户是透明的,标准元数据之间可以互相转换。 1、培训目的 1.1 改善部门各级各类员工的知识结构、提升员工的综合素质,提高员工的工作技能、工作态度和行为模式,满足部门的快速发展需要,更好的完成部门的各项工作计划与工作目标。 1.2、加强部门各级各类员工职业素养与敬业精神,增强员工服务意识与服务水平,打造高绩效团队,减少工作失误,提高客户满意度,提高工作效率。 1.3 提升部门凝聚力、吸引力、向心力和战斗力,为部门进一步发展储备相关人才。 1.4 锻炼员工的学习表达能力。 1.5 完善部门各项培训制度、培训流程以及建立系统的培训体系,实现各项培训工作顺利、有效实施。 2、培训原则 2.1 以部门战略与员工需求为主线。 2.2 以素质提升与能力培养为核心。 2.3 以针对性、实用性、价值型为重点。 2.4以项目式培训和持续性培训相互穿插进行。 2.5坚持理论与实践相结合、学习与总结相结合。 2.6坚持部门内部培训为重点、内训与外训相结合。 2.7坚持学历性教育培训和岗位培训相结合。 2.8 实现由点、线式培训到全面系统性培训转变。 3、培训的实施 3.1培训内容的决定 部门所有成员对自己要培训的需求提出建议,相关负责人收集并统计,根据统计结果,按需求量较大或需求的紧迫性来决定培训的内容。 3.2 培训方式 分为正式培训和技术交流。 正式培训需要讲师准备PPT、有关课件,利用投影等设备进行讲授,并进行培训效果考核和学员成绩考查。 技术交流可不准备课件,直接采用即兴口头演讲的方式进行。 3.3培训时间 根据学习要求,不定期进行有关主题内容的培训。 3.4 讲师安排 讲师实行报名制。根据部门发布的员工培训需求统计结果,选择自己熟悉或感兴趣的培训科目报名。部门经理根据报名情况决定讲师人选。 3.4 培训效果评估 3.4.1 培训后,参与人员对培训的讲师、培训的内容、总体效果等做出评价。 3.4.2 讲师准备10个以内的培训内容相关的试题,受训者根据培训内容来做答,经讲师批阅后整理到员工培训考核成绩表,并把成绩表交由部门经理审阅,最后相关负责人存入个人培训档案。 3.5 奖惩方式 对于正式培训,培训完后,参与培训人员给讲师打分,根据打分情况给予讲师0、1、2、3分积分。 对于技术交流,根据培训内容和效果,给予所有主要参与者0,1,2分不等的积分。 参加培训者考核合格后给予0.5、1分不等积分。 年终累计积分,根据积分情况给予奖励。 对于年终参加培训积分不足年度部门总培训积分的80%者,给予一定的惩罚。 4、培训材料 4.1员工培训签到表 4.2讲师应提前准备好培训的PPT,如果培训项目开发知识应准备好实例。 4.3 培训内容相关的试题 4.4内部培训效果评估表 4.5员工培训考核成绩表 5、相关附件 附件一 员工培训签到表 培训内容 培训时间 培训讲师 培训地点 培训方式 考核方式 应到人数 实到人数 缺席人数 出勤率 序号 姓 名 出席时间 (HH:MM) 离席时间 备注 序号 姓 名 出席时间 离席时间 备注 1. 1 2. 3. 2 4. 5. 3 6. 7. 4 8. 9. 5 10. 11. 6 12. 13. 1 14. 15. 2 16. 17. 3 18. 19. 4 20. 21. 5 22. 23. 6 24. 25. 1 26. 27. 2 28. 29. 3 30. 31. 4 32. 33. 5 34. 35. 6 36. 37. 1 38. 39. 2 40. 41. 3 42. 43. 4 44. 45. 5 46. 47. 6 48. 49. 50. 评估项目 好 一般 差 培训总评 课堂纪律 学习态度 讲师表达 课堂氛围 评估人/日期 附件二 员工培训考核成绩表 培训内容 培训时间 培训讲师 培训地点 培训方式 考核方式 序号 姓 名 理论得分 应用得分 序号 姓 名 理论得分 应用得分 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. 21. 22. 23. 24. 25. 26. 27. 28. 29. 30. 31. 32. 33. 34. 35. 36. 37. 38. 39. 40. 41. 42. 43. 44. 45. 46. 47. 48. 49. 50. 51. 52. 说明:员工入职培训考核分为书面考核(70%)与应用考核(30%)两部分;考核标准为:60分以下为不合格,60-700分为合格,70-80分为一般,80-90分为良,90分以上为优。 附件三 内部培训效果评估表 部 门:__________ _ 姓 名:____________ 培训内容:__________ _ 培训时间:__________ 请就下面每一项进行评价,并请在相对应的分数上打“√”: 课程内容 很差 差 一般 好 很好 优秀 1.课程目标是否符合我的工作和个人发展需要 5 6 7 8 9 10 2.课程知识是否深度适中、易于理解 5 6 7 8 9 10 3.课程内容是否切合实际、便于应用 5 6 7 8 9 10 培 训 师 4.培训师表达是否清楚、态度友善 5 6 7 8 9 10 5.培训师对培训内容是否有独特精辟见解 5 6 7 8 9 10 6.培训师是否鼓励学员参与,现场气氛很好 5 6 7 8 9 10 7.培训师对学员提问是否所作出的回答与指导 5 6 7 8 9 10 培训收获 8.获得了适用的新知识和新理念 5 6 7 8 9 10 9.获得了可以在工作上应用的一些有效的技巧或技术。 5 6 7 8 9 10 10.促进客观地审视自己以及自己的工作,帮助对过去的工作进行总结与思考。 5 6 7 8 9 10 其它收获: 11.整体上,您对这次课程的满意程度是: A.不满 B .普通 C.满意 D.非常满意 12.您给予这次培训的总评分是(以100分计): 13.本次培训你认为那些内容对你的帮助最大? 14.您认为课程或讲师最应改进的地方? 15.请您提出其他培训建议或培训需求: 说明: 1.填写完整后及时将本表交人事管理部; 2.请给予您真实的评估意见,以帮助我们不断提高培训水平。- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 建设 数据仓库 八个 步骤
咨信网温馨提示:
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【a199****6536】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【a199****6536】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【a199****6536】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【a199****6536】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。
关于本文