大数据时代亟需强化数据清洗环节的规范和标准.doc
《大数据时代亟需强化数据清洗环节的规范和标准.doc》由会员分享,可在线阅读,更多相关《大数据时代亟需强化数据清洗环节的规范和标准.doc(7页珍藏版)》请在咨信网上搜索。
1、日期:2015-10-10文章来源:国研网文章录入:李金金 关 闭 海量数据的不断剧增形成大数据时代的显著特征。而大数据的生产和交易的重要前提之一是数据的清洗。目前,我国已经形成了基本的数据清洗产业格局,但因各自利益的追求,导致仍存在不少问题。因此,我国未来应重点强化数据清洗环节的规范和标准,推动大数据产业的健康发展。海量数据不断剧增是未来的发展趋势在席卷全球的信息化浪潮中,互联网、移动互联网、云计算、物联网等技术迅猛发展、加速创新,其中积淀的数据爆炸式增长,成为重要的生产要素和社会财富,堪称信息时代的矿产和石油。据预测,中国2015年可能突破10EB数据保有量,且每两年会翻一番。针对这种史无
2、前例的数据洪流,如何挖掘信息时代的“数字石油”,将大数据转换为大智慧、大市场和大生态,是我们这个时代的历史机遇。2015年6月24日,国务院常务会议通过的互联网+”行动指南意见明确提出,要加强新一代信息基础设施建设和云计算、大数据的应用。此外,根据中国信息通信研究院(原工信部电信研究院)6月21日发布的中国大数据发展调查报告,2014年我国大数据市场规模达到84亿元人民币,预计2015年将达到115.9亿元人民币,增速为38%。大数据交易显现出对数据清洗的迫切需求大数据已经渗透到各个行业和业务职能领域,成为重要的生产因素。数据的来源主要有政府数据、行业数据、企业数据和从数据交易所交换的数据。在
3、数据交易方面,2014年2月20日,国内首个面向数据交易的产业组织中关村大数据交易产业联盟成立。同时成立的中关村数海大数据交易平台是国内首个重点面向大数据的数据交易服务平台,目前有1203家数据提供商。2015年4月14日,全国首家以大数据命名的交易所,即贵阳大数据交易所正式挂牌成立,并在当日成功完成了首笔数据交易。值得注意的是,贵阳大数据交易所交易的并不是底层数据,而是基于底层数据,通过数据的清洗、分析、建模、可视化出来的结果。而采取这一过程的目的,就是为了解决数据交易和使用过程中保护隐私及数据所有权的问题。以传统方式构建的基本架构对数据进行清洗大数据必须经过清洗、分析、建模、可视化才能体现
4、其潜在的价值。然而,由于网民数量的增加、业务应用的多样化和社交网络的繁荣,单个文件(比如日志文件、音视频文件等)变得越来越大,硬盘的读取速度和文件的存储成本越来越显得捉襟见肘。与此同时,政府、银行和保险公司等内部存在海量的非结构化、不规则的数据;而只有将这些数据采集并清洗为结构化、规则的数据,才能提高公司决策支撑能力和政府决策服务水平,使之发挥应有的作用。因此,目前的数据清洗主要是将数据划分为结构化数据和非结构化数据,分别采用传统的数据提取、转换、加载(ETL)工具和分布式并行处理来实现。其总体架构如图1所示。图1大数据清洗总体架构具体来讲,结构化数据可以存储在传统的关系型数据库中。关系型数据
5、库在处理事务、及时响应、保证数据的一致性方面有天然的优势。非结构化数据可以存储在新型的分布式存储中,比如Hadoop的HDFS。分布式存储在系统的横向扩展性、降低存储成本、提高文件读取速度方面有着独特的优势。此外,就是结构化数据和非结构化数据之间的数据迁移。如果要将传统结构化数据,例如关系型数据库中的数据导入到分布式存储中,可以利用sqoop等工具,先将关系型数据库(mysql、postgresql等)的表结构导入分布式数据库(Hive),然后再向分布式数据库的表中导入结构化数据。对不同质量的原数据进行分类以适应清洗工作数据清洗在汇聚多个维度、多个来源、多种结构的数据之后,就可以对数据进行抽取
6、、转换和集成加载。在这个过程中,除了更正、修复系统中的一些错误数据之外,更多的是对数据进行归并整理,并储存到新的存储介质中。其中,分清和掌握数据的质量至关重要。常见的数据质量问题可以根据数据源的多少和所属层次(定义Scheme层和实例sample层)分为四类。第一类,单数据源定义层:违背字段约束条件(比如日期出现1月0日)、字段属性依赖冲突(比如两条记录描述同一个人的某一个属性,但数值不一致)、违反唯一性(同一个主键ID出现了多次)。第二类,单数据源实例层:单个属性值含有过多信息、拼写错误、空白值、噪音数据、数据重复、过时数据等。第三类,多数据源的定义层:同一个实体的不同称呼(比如冰心和谢婉莹
7、,用笔名还是用真名)、同一种属性的不同定义(比如字段长度定义不一致、字段类型不一致等)。第四类,多数据源的实例层:数据的维度、粒度不一致(比如有的按GB记录存储量,有的按TB记录存储量;有的按照年度统计,有的按照月份统计)、数据重复、拼写错误。除此之外,还有在数据处理过程中产生的“二次数据”,其中也会有噪声、重复或错误的情况。数据的调整和清洗也会涉及到格式、测量单位和数据标准化与归一化的相关事情,以致对实验结果产生比较大的影响。通常这类问题可以归结为不确定性。不确定性有两方面内涵,包括各数据点自身存在的不确定性,以及数据点属性值的不确定性。前者可用概率描述,后者有多重描述方式,如描述属性值的概
8、率密度函数,以方差为代表的统计值等。对不同质量类型的数据采用不同的清洗方法针对以上数据质量中普遍存在的空缺值、噪音值和不一致数据的情况,可以采用人工检测、统计学方法、聚类、分类、基于距离的方法、关联规则等方法来实现数据清洗。以往的人工检测方法不但要花费大量的人力、物力和时间,也会在数据清洗过程中产生很多衍生错误。最近,可视化作为一种有效的展示手段和交互手段,可以用来提高数据错误识别和清理的效率,如图2所示。图2可视化方法直接影响数据质量的探究图2中,a为社交网络图,无法显示任何数据异常;b为关联矩阵图,可以显示源数据的内部结构,但不利于寻找错误;c将源数据按照矩阵视图重排,比较容易发现矩阵右下
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 时代 亟需 强化 清洗 环节 规范 标准
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【精***】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【精***】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。