ETL技术规范(通用).doc
《ETL技术规范(通用).doc》由会员分享,可在线阅读,更多相关《ETL技术规范(通用).doc(9页珍藏版)》请在咨信网上搜索。
1、ETL技术规范第1章. ETL设计规范ETL设计规范主要应用于ETL编码的前期工作。由于ETL全过程是面向数据的,主要工作为数据的抽取(Extract)、转换(Transform)、装载(Loading),正确界定所涉及到的数据范围和应当应用的转换逻辑对于后续的编码工作非常重要,这些数据关系的确定,我们称之为Mapping(数据映射)。正确定义数据映射关系是ETL成功实施的前提,一个完善的Mapping应该包含以下几个部分:1.1 源数据集属性此部分应该详细描述数据源的相关属性,包括:实体名称含数据来源名称(DSN)、所有者等信息;字段名称英文名称;字段简述中文名称,如为参数信息应该有相关取值
2、解释,如性别字段(1:男;2:女;0:不详)类型字段类型,含长度和精度信息;非空属性字段是否可以为空;1.2 目标数据集属性此部分应该详细描述目标数据集的相关属性,包括:实体名称含数据来源名称(DSN)、所有者等信息;字段名称英文名称,建议根据字段含义来命名,而不是简单用拼音来定义字段(此部分由负责设计数据集的人员控制);字段简述中文名称,对于保留字段应该给出默认值;类型字段类型,含长度和精度信息;非空属性字段是否可以为空;1.3 ETL规则主要描述ETL各个环节的转换规则,包括:数据源过滤规则描述从源数据集获取数据过程中过滤掉记录的规则;关联规则当源数据集为多个时,描述相互之间的关联关系;列
3、转换规则描述源数据集到目标数据集的字段间的转换规则;此规则非常重要,要清晰描述字段间的逻辑关系,包括业务逻辑;目标数据集更新规则描述目标数据集的更新策略,包括更新机制和更新频度,如“每日全量更新”、“每周增量更新”等;ETL作业列表由于ETL所开发的作业之间包含一定的业务逻辑和编码逻辑,所以调度过程中应遵循一定的逻辑顺序,此部分主要用来明确调度的顺序,包括:作业名称实现Mapping的作业名称,包括该作业功能描述;调度顺序用序号或者是流程图模式描述作业的调度顺序,需要综合考虑业务逻辑、编码逻辑以及系统资源等多方面情况,在保证业务逻辑和编码逻辑的基础上,通过控制调度,最大限度地合理利用系统资源;
4、参数列表列举每个作业中所使用的参数,不同作业中的相同参数最好使用相同的名称,便于调度时进行控制。第2章. ETL开发规范ETL项目的开发往往是多人团队开发模式,由于周期较长,期间难免会出现开发人员交替现象。无论是开发过程中的人员交替还是从开发到系统运营之间的转换,都需要良好的交接。为保证项目开发各个时期的平稳过度及顺利交接,在开发过程中,应该遵循一定的开发规范。主要包括: 命名规范 结构规范 代码封装规范2.1 命名规范2.1.1 作业命名规范ETL是一个复杂的工作,数据仓库的建设一般会花费70以上的工作量在ETL上面,而且这是一个细致活,任何一点小的错误都有可能造成后续工作的出错和失败;此外
5、,数据仓库需要不断的更新维护,相应的ETL程序也需要进行相关的更新维护,所花费的成本也很大。一个好的命名规范,能够使ETL的程序更清晰易懂,很好地避免了开发过程中出错;同时更好的可读性,也极大地减低了ETL程序的更新维护成本。作业命名规则:JOBTYPEDESCRIPTIONSEQNUMJOBTYPE:作业类型DESCRIPTION:有效的描述信息SEQNUM:作业的编号。由于一定的原因,有可能需要拆分作业数据多次加载数据,这个编号就可以区分加载。如果一次加载可以成功的话这个编号就不需要了。2.1.2 作业内部命名规范对于作业内部命名,应该遵循代码的可读性与可传递性原则,命名规则:Functi
6、onDescriptionFunction:表示用途,Ex:抽取,Create:创建,Ld:装载,Lookup:查找等Description:有意义的描述,比如数据库表名,文件名等。2.1.3 作业注释规范ETL开发过程往往要经历一个较长时间段,为了便于团队开发和后期维护,除开发设计文档要齐全外,还应该在作业设计界面中适当加注释信息,主要包括作业功能说明、所属模块、开发时间、开发人员等信息。2.2 结构规范2.2.1 作业目录组织结构对于ETL PROJECT而言,我们需要划分清晰的目录结构,根据一定的规则将作业组织起来,这样无论是对ETL设计人员,运行人员,维护人员,都有很大的帮助。目录结构
7、划分遵循以下原则:1 体现作业的依赖关系。2 体现作业功能。3 独立放置二次开发作业。2.2.2 模块化结构ETL按照处理逻辑分为E阶段(Extract)、T阶段(Transformer)和L阶段(Loading)。E、T、L阶段可能分处不同的服务器上,需要跨网络运行,他们之间的配置情况可能存在较大的差异,而多数ETL设计的处理机制是串行运行机制,基于数据行处理。如果E、T、L的过程同时运行,那么整体的处理能力应该是三个环节中效率最低的那个环节的处理水平。如果我们将三个环节的设计分开,实行模块化流程处理,即E环节、T环节、L环节均设计成可独立运行的模块,那么在整个处理过程中,将可以最大限度发挥
8、功效,不会因为串性处理机制而相互制约。另外,模块化的流程设计,对于开发阶段的调试以及维护阶段的出错处理都提供了良好的辅助作用。第3章. ETL维护规范3.1 日志检查3.1.1 日志文件报告ETL提供日志监测和报告功能。报告分汇总报告和详细报告。汇总报告报告内容:作业总数,WARNING作业数,成功作业数,失败作业数,开始时间,结束时间等详细报告报告内容:作业名称,开始时间,结束时间,运行状态等3.1.2 作业状态排查在ETL管理控制台上,可点击进入查看作业更为详细的状态及出错信息,以便于维护更正。3.2 出错处理即使是经过严格测试的程序,在实际运行中仍然会因为种种原因而导致出错,根据ETL的
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- ETL 技术规范 通用
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【精****】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【精****】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。