安徽地税数据集中方案.doc
《安徽地税数据集中方案.doc》由会员分享,可在线阅读,更多相关《安徽地税数据集中方案.doc(43页珍藏版)》请在咨信网上搜索。
1、安徽地税数据集中方案432020年5月29日文档仅供参考一、概述1.1背景安徽省地税在 全省上线运行了安徽征收管理系统ahtax ,全省的信息化工作已经全面展开。可是系统是在各地市独立运行的,对于省地税来说,无法及时准确地了解全省的税收情况。另外,税务数据的省级集中也是一个大的趋势。为了执行国家税务总局要求税务数据全省集中,以及实际的需要,必须建设统一的数据中心,集合全省的数据。当前,安徽省全省共有17个地市,加上省属直接单位,共有18个业务数据库在运行,各地数据都在本地服务器存放,虽然全省已经实现17个地市的2M带宽的连接,可是要对全省的数据进行查询分析还是比较麻烦的。而且,由于各地税的数据
2、是相对独立的,虽然应用的是同一套系统,可是由于各地的情况比较复杂,数据存在不一致的风险。因此,必须建立统一的数据模型,经过建立数据仓库整合数据,支撑全省查询分析的需要。1.2系统建设目标安徽地税数据中心的建设目标是:1、经过统一的数据存储平台,对数据进行标准化处理和规范化管理,实现数据透明和共享。当前各地市应用系统在线数据保存在不同的数据库中,各数据结构大致相同,但数据的一致性、统一性和规范性较差,数据共享十分困难。因此,经过数据中心构建安徽地税统一的数据服务平台,实现企业数据的统一规划、集中采集、集中处理和统一管理,形成地税数据的统一视图,实现数据透明和共享,充分发挥地税数据资源的价值。2、
3、有效支撑统计分析及查询应用等功能。经过数据中心的建设,整合各地市、各业务系统等多种数据源,形成统一的业务数据视图,并采用统计分析、查询等方式满足各级专业和管理部门人员的不同要求。3、在完成前两步目标的基础上,进一步建设全省的数据仓库,支撑更多的业务查询、统计分析、数据挖掘功能,提升管理和整体决策能力。1.3系统建设原则系统建设遵循以下原则: 整体规划,分步实施, 循序渐进,步步见效; 有效控制项目风险; 保护投资的长期有效性,资源能得到有效利用; 为数据和应用大集中做好准备。二、技术方案数据仓库体系结构如下图所示:整个数据仓库系统是一个包含四个层次的体系结构:数据源:是数据仓库系统的基础,是整
4、个系统的数据源泉。一般包括内部信息和外部信息。内部信息包括存放于关系数据库中的各种业务处理数据和各类文档数据,外部信息包括各类法律法规、经济统计信息等等。数据存储与管理:是整个数据仓库系统的核心。数据仓库的真正关键是数据的存储和管理。数据仓库的组织管理方式决定了它有别于传统数据库,同时也决定了其对外部数据的表现形式。要决定采用什么产品和技术来建立数据仓库的核心,则需要从数据仓库的技术特点着手分析。针对现有各业务系统的数据,进行抽取、清理,并有效集成,按照主题进行组织。其中,数据的存储与管理在数据仓库中一般按照三个层面进行存储和管理:操作数据存储区(ODS)、数据仓库(DW)、数据集市(DM)。
5、在线分析服务器(OLAP):对分析需要的数据进行有效集成,按多维模型予以组织,以便进行多角度、多层次的分析,并发现趋势。其具体实现能够分为:关系型在线分析(ROLAP)、多维在线分析(MOLAP)和混合在线分析(HOLAP)。ROLAP基本数据和聚合数据均存放在关系数据库之中;MOLAP基本数据和聚合数据均存放于多维数据库中;HOLAP基本数据存放于RDBMS之中,聚合数据存放于多维数据库中。前端工具:主要包括各种报表工具、查询工具、数据分析工具、数据挖掘工具以及各种基于数据仓库或数据集市的应用开发工具。其中数据分析工具主要针对OLAP服务器,报表工具、数据挖掘工具主要针对数据仓库。2.1操作
6、数据存储区(ODS)2.1.1ODS的定位操作数据存储(ODS)是应用数据库与数据仓库之间的桥梁,在ODS中系统地进行数据整合使数据仓库系统的时效性不足得以弥补,提供统一完整的企业视图和准确的运营数据信息;经过集中简化的信息提取过程,提高业务运行效率;更有效地统计分析税务信息,为实现安徽地税内部自动化的信息和业务流程提供便利条件。ODS的建立实现对税务数据的清理整合,构筑一个统一的、完整的数据平台,确定数据所有者,建立数据同步机制,统一数据编码定义,建立数据访问机制,实现业务系统数据共享,完成应用与数据分离,实现数据从地市到省级的提升。ODS在安徽地税数据集中方案中能够发挥以下几个方面的作用:
7、n 作为数据仓库的主要数据源ODS数据库对应用系统的数据进行了清洗、转换和整合,存储了较为详细和全面的业务运行数据,ODS数据库中的数据不但具有较高的数据质量,而且比应用系统更有利于数据仓库对数据进行获取和进一步转换,是数据仓库的主要数据来源。n 提供报表和查询统计功能ODS从不同的应用系统中采集数据,整合各个应用系统的共享数据,形成企业级数据的整体视图,实现综合统计和报表查询功能。n 进一步引导需求经过ODS的建设及建立在其上的应用,进一步启发新的业务需求,为数据仓库的建设打下基础。2.1.2数据抽取、转换与加载(ETL)2.1.2.1 数据源安徽省地税数据中心需要采集的业务基本数据包括:n
8、 税务登记n 核定管理n 申报征收n 发票管理n 票证管理n 行政执法n 税费检查n 会统管理这些数据主要从以下一些生产作业系统获得:n 安徽地税征收管理系统ahtax 2.1.2.1.1税务登记1、目标:获取纳税人信息等。纳税人基本登记信息,应缴税种信息,纳税人当前状况,证照信息等。2、信息交换方式:直接访问数据库。3、通信呼叫方式:纳税人新信息每日定时上传(访问)一次,若当日没有数据则不需要上传。4、数据文件名称与内容:1)税务登记信息:纳税人名称,经营地址,行业信息,开业时间,纳税人状态,所属税务机关,科室代码,注册类型代码,主营范围,兼营范围,经营方式,注册资本,工商登记等。2)纳税人
9、缴税信息税种代码、税目代码、缴税频率(按月、季、半年、年等),限缴期限。3)纳税人状态信息停复业登记,注销登记、非正常户确认,纳税人迁移。4)证照信息证件打印,封存、缴销、作废、遗失。2.1.2.1.2核定管理1、目标:获取定期定额纳税人的税收信息。核定税款信息,核定社保费信息。2、信息交换方式:FTP访问数据库。3、通信呼叫方式:本地核定操作后,每月定时往数据中心系统ETL服务器传送本地网的所有核定信息;或经过各本地网接口服务器直接访问。4、数据文件名称与内容:1)核定税款信息核定时期,核定所属期,申报年月,核定的税种、税目,核定税额。2)社保费核定信息核定时期,核定所属期,申报年月,核定的
10、税种、税目,核定费额。2.1.2.1.3申报征收1、目标:各地市的申报征收开票信息。2、信息交换方式:FTP访问、直接访问数据库。由于涉及较大的数据量,考虑到服务器的压力,建议经过FTP的方式间接访问数据局库。3、通信呼叫方式:每月定时传送(访问)二次。征收期过后一次,月末一次。4、数据文件名称与内容:1)申报信息企业编码,申报日期,申报税种、申报税目,申报日期,限期申报日期,申报所属期,申报类型,预算级次,预算科目,记税金额,申报税款,减免税款,是否零申报,金库编码2)开票信息企业编码,开票日期,入库日期,欠税属性编码,限缴日期,开票税金,减免税金,计征税金,税率、金库编码,预算级次,款项类
11、别,税票号码,开户银行,银行账号3)减免税信息企业编码,减免税种、税目,减免类型,减免期限,减免比率或减免金额4)延期申报信息企业编码,延期税种、税目、税款所属期、延期缴纳时间、延期理由5)欠税信息 企业编码,税种编码、税目编码、税款所属期,欠税金额,欠税属性编码2.1.2.1.4发票管理1、目标:各地市发票计划、印制、库存等信息2、信息交换方式:直接访问数据库。3、通信呼叫方式:每日定时上传(访问)一次。4、数据文件名称与内容:1)发票计划信息发票名称,计划领购数量2)发票印制信息承印单位,发票代码,印制数量、印制价格。3)发票操作信息发票发出数量,发票入库数量,发票核销等。4)发票账务信息
12、发票记账信息、结账信息。2.1.2.1.5票证管理1、目标:各地税票信息2、信息交换方式:直接访问数据库。3、通信呼叫方式:每月定时上传(访问)一次。4、数据文件名称与内容:1)票证领单票证编码,发出机关,领入机关,字轨,票号,数量。2)票证领据票证编码,发出机关,用票人编码,领用数量,字轨,票证号码范围,数量。3)票证结报票证编码,用票人,结报类型,结报数量,字轨,票证号码范围。4)票证上缴票证编码、用票人,上缴单位,数量、字轨,票证号码范围。2.1.2.1.6行政执法1、目标:各地行政处罚数据2、信息交换方式:FTP访问。3、通信呼叫方式:每日定时上传(访问)一次。4、数据文件名称与内容:
13、1)处罚案件登记案件名称,纳税人编码,处罚原因,案件来源,处罚类型,处罚方式,违章原因。2)处罚案件情况表案件编码,处罚依据,处罚金额,处罚时间,处罚类型。2.1.2.1.7税费检查1、目标:各地稽查和税费检查情况数据:2、信息交换方式:直接访问数据库。3、通信呼叫方式:每日定时上传(访问)一次。4、数据文件名称与内容:1)案件情况表案件编号,企业编码,企业名称,行业编码,检(稽)查所属期,检(稽)查时间,案件检(稽)查单位,案件状态,结案时间,立卷时间,是否立案,是否大要案,检查人员,审理人员,执行人员。2)案件检查情况案件编号,查处税种,查处税目,查处期间,查处金额,税款类型,预算级次,款
14、项类型,所属金库编码,处罚机关,征收机关编码。2.1.2.2 数据源分析数据源能够做如下分类:(1)按照数据类型:流水型数据记录增量产生,原记录不能修改的数据,该类数据一般按照一定的周期,根据时间戳传送特定的纪录。例如:系统的字典表和关键的辅助表:BM_SZ,BM_SM等。混合型数据记录既能够增量产生,原记录又能够修改的数据,该类数据一般按照一定的周期,对数据进行整表传送。税收数据大部分都是这种类型的数据。税收的大部分数据都是这种类型:比如登记信息表,征收表等。(2)按照数据量:大数据量数据量达到每天百万条记录以上。从全省的角度来讲,申报表和开票表接近这个数据量。中等数据量数据量为每天一万条记
15、录以上。其它业务数据。小数据量数据量低于每天万条条记录。基本上比较少,如部分文书表等。(3)按照数据周期:实时、日周期、月周期、年周期、不定周期。2.1.2.3 数据抽取、转换、加载ETL即数据抽取、转换和加载,是数据中心实现过程中,将数据由数据源系统向数据中心加载的主要过程。从功能上看,整个ETL包括三个部分: 1. 数据抽取:从数据源系统抽取数据中心系统需要的数据;2. 数据转换:将从数据源获取的数据转换成数据中心要求的形式,对数据进行转换;3. 数据加载:将数据装入数据中心。ETL实现过程的流程图如下图所示:在ETL的整个过程中,还必须充分考虑异常情况的处理。2.1.2.3.1 数据抽取
16、2.1.2.3.1.1 数据抽取接口1、直接访问接口直接访问方式是在对方数据库上建立接口表(或视图),本系统经过数据链接直接获取对方数据,然后进行处理的数据通信方法。该方法适用于双方数据库在同一台服务器上或在同一个局域网内。2、FTP方式在省中心配置ETL服务器,在ETL服务器上安装并启动FTP服务,外部系统需要发送给本系统的数据由相关外部系统定期或按需将需要传送的数据按要求组织成文本格式文件,经过FTP上传到本系统的ETL服务器。n FTP文件存放位置在省级ETL服务器中,统一建立针对外围不同系统存放文件的总目录,并以本地网为单位设置相应子目录,子目录名称为各本地网名称的全拼拼音字母,用来存
17、放各本地网上传的文件;n FTP文件命名规则用文件扩展名区分数据文件类型,结构类型不同的数据文件其扩展名将不同。文件扩展名长两位,每位取值范围从0-9、A-Z;文件名前半部分分两种情况:u 对于每天生成的数据文件,取文件内数据发生的日期,具体文件格式:yyyy(年)mm(月)dd(日).?。u 对于每月生成的数据文件,则取文件内数据所属的帐务月(或统计月),具体文件格式:yyyy(年)mm(月).?。n FTP文件格式能够按照各系统和实际情况,灵活设置FTP文件的格式,如:文本文件的分隔符采用逗号方式,记录结束标识为换行/回车;或采用字段定长,记录定长的方式。n FTP文件传送完成确认方法由于
18、数据文件可能很大,FTP传送可能是个漫长的过程,本系统接口处理程序不知道数据文件什么时候传送完毕。因此,在此要求每个数据文件传送完成之后,再传送一个数据文件传输完成的确认文件,该确认文件以要确认传送完毕的数据文件扩展名后加字符A,文件类容仅仅包含要确认传送完毕的数据文件名。一批传送多个数据文件时,每一个数据文件对应一个确认文件。例如:要上传一个 1024.A1的数据文件,确认文件名为 1024.A1A,确认文件内容为: 1024.A1。2.1.2.3.1.2 数据抽取策略数据的抽取必须能够充分满足数据中心的需要,又能保证不影响业务系统的性能,因此进行数据抽取时应制定相应的策略,包括抽取方式、抽
19、取时机、抽取周期等内容。l 抽取方式:增量抽取、完全抽取等。l 抽取时机:尽可能避开业务系统的高峰时段,可选择在夜间业务系统比较闲时进行。l 抽取周期:对不同类型的数据源,应综合考虑业务需求和系统代价,制定合理的抽取周期。在制定抽取策略时,需要对以上各项因素综合考虑。一般情况下,流水型增长且数据量大的数据适合采用增量抽取的方式;变化更新的数据适合采用完全抽取的方式;对于两者结合的数据,如果能提取增量信息,则进行增量抽取,否则采用完全抽取的方式进行。另外,对于抽取周期要考虑实际业务的需求和抽取进行的系统代价,在可能的情况下,尽量缩短抽取周期。2.1.2.3.2 数据转换数据转换是指对从业务系统中
20、抽取的源数据根据数据中心模型的要求,进行数据的转换、清洗、拆分、汇总等处理,保证来自不同系统、不同格式的数据的一致性和完整性,并按要求装入数据中心。2.1.2.3.2.1 数据转换的主要功能数据转换主要完成由于以下原因造成的数据不一致性问题:1 源数据系统同数据中心系统在模型上的差异性;2 源数据系统平台不一致:数据中心系统的数据源可能包括基于不同平台的数据库的数据,可能会存在大量的转码工作。;3 源数据结构的不一致:有些数据源由于历史的原因,导致同一个表在不同的时期数据结构不一致;4 源数据定义不规范导致错误数据;5 对数据的约束不严格,导致无意义数据;6 存在重复记录。2.1.2.3.2.
21、2 数据转换技术和策略根据实际情况,数据转换工作一般会在以下几个环节中具体实现:1 在抽取过程中进行数据处理;2 使用异步数据加载,以文件的方式处理;3 在数据加载过程中进行数据处理;4 进入数据中心以后再进行数据处理。采用在数据抽取过程中进行数据转换时,必须考虑抽取的性能以及对业务系统性能的影响;采用异步数据加载需要以文件方式处理时,必须充分考虑中间磁盘的存储量以及ETL整个流程的协调性工作,以及大量的非SQL语句的编程;采用在数据加载过程中进行数据转换时,必须考虑加载性能;采用先将数据装载到数据中心后再处理时,必须考虑数据中心引擎的海量数据处理能力。2.1.2.3.3 数据加载2.1.2.
22、3.3.1 数据加载主要功能数据加载就是将从数据源系统中抽取、转换后的数据加载到操作数据存储区或数据仓库系统中。要求数据加载工具必须具有高效的加载性能。2.1.2.3.3.2 数据加载技术及策略主要加载技术:1. 使用数据仓库引擎厂商提供的数据加载工具进行数据加载;2. 经过数据仓库引擎厂商提供的API编程进行数据加载。数据加载策略要考虑加载周期及数据追加策略两方面的内容。根据安徽地税业务数据的实际情况,加载周期要综合考虑业务分析需求和系统加载的代价,对不同业务系统的数据采用不同的加载周期,但必须保持同一时间业务数据的完整性。数据的追加策略根据数据的抽取策略以及业务规则确定,一般有以下三种类型
23、:直接追加、全部覆盖、更新追加。l 直接追加:是指每次加载时直接将数据追加到目的表中。对于典型的流水数据,一般采用此方法;l 全部覆盖:对于抽取数据本身已包括了数据的当前和所有历史状况,对目标表采用全部覆盖方式。l 更新追加:对于需要连续记录业务的状态变化,用当前的最新状态同历史状态数据进行对比的情况采用更新追加的方式。具体采取何种方式,要综合考虑效率、业务实现等因素。2.1.2.4 数据审计每个数据加载周期中,如何保证数据中心中数据同业务系统中数据在业务意义上的一致性及数据的准确性极其重要。因此,必须引进数据审计功能。数据正确性的审计工作是在数据加载工作完成以后,一方面要从设计到实施的整个过
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 安徽 地税 数据 集中 方案
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【人****来】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【人****来】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。