大数据平台基准测试流程测试工具解析.doc
《大数据平台基准测试流程测试工具解析.doc》由会员分享,可在线阅读,更多相关《大数据平台基准测试流程测试工具解析.doc(10页珍藏版)》请在咨信网上搜索。
1、43引言互联网的普及已经连接了全世界近30亿人口,目前,互联网上的网页数目已经突破10亿1,大量的数据在网络中产生,而新的互联网技术和应用的结合形成了丰富的数据源,并带来数据量爆发式的增长。大数据在数据量、数据类型和处理时效性等方面带来了新的挑战,应运而生的大数据处理技术采用分布式文件系统、分布式并行计算框架等模型以低廉的价格解决大数据的挑战。新的计算框架和数据库系统层出不穷,大数据产品和系统不断推陈出新,催生出对这些产品和技术进行基准对比的需求。大数据基准测试从具体应用中抽象出有代表性的负载,根据真实数据的特征和分布生成可扩展的数据集,以相应的指标衡量负载处理数据集的效果,以此来比较大数据处
2、理系统的性能。本文结合大数据处理系统的特点,阐述大数据基准测试的要素和构建流程,最后从数据、负载和软件栈等方面比较现有基准测试工具,并展望未来基准测试工具的发展方向。1 大数据起源和特点随着互联网技术的发展,产生了越来越多的数据来源。互联网应用记录着用户每天在网上的行为数据,用户的社交数据、搜索数据、购物数据都被一一记录下来。而线下的生活也处处与网络相关,通话记录、医疗数据、环境数据、财务数据也通过网络留存下来。工业互联网中的机器配备了传感器和网络传输装置,积累了大量机器数据。物联网连接地球上所有的人和物,感知并跟踪着物体和人的状态。据IDC 预测,从2005年到2020年,全球数据量将会从1
3、30EB 增长到40ZB 2。随着数据源种类的激增,新的数据不仅在数据量上有了很大的体量,其数据结构也不同于以往的关系型数据结构,智能设备、传感器和各种应用的兴起,视频、图片、音频、文档、网页和日志等大量非结构化的数据蜂拥而来,为当前的数据处理带来新的挑战。互联网服务的进化,使得用户对数据处理的速度有了更高要求,数据量规模和数据类型复杂性的增加对大数据处理速度带来挑战。IBM 从四个维度定义大数据,即数量(Volume、种类(Variety、速度(Velocity、真实性(Veracity3。大数据具备大体量、多样性、高时效性和真实性等特征。2 大数据处理平台的构成大数据的大体量、多样性和处理
4、的时效性是传统单设备纵向扩展无法解决的,这种挑战首先在互联网搜索中体现出来,搜索引擎需要检索和存储的网站数量庞大数据基准测试流程与测试工具姜春宇1 孟苗苗21 工业和信息化部电信研究院标准所,云计算标准与测试验证北京市重点实验室 北京 1001912 中国联合网络通信有限公司 北京 100033摘要 当前大数据产品和技术的发展非常迅速,市场中存在各种各样的商业版和开源的大数据软件,这些大数据系统解决了大数据大体量、多样性、时效性的挑战。随着大数据产品和技术成熟,如何去测试和评估这些大数据产品成为新的研究主题。文章简要介绍大数据兴起的背景,综述大数据处理系统的主要构成,并针对大数据处理系统的特点
5、,提出构建大数据基准测试平台的要素和流程,最后介绍当前大数据基准测试工具和存在的问题,展望未来大数据基准测试工具的发展方向。关键词 大数据;大数据平台;大数据基准测试;数据;负载;指标研究与开发 Research & Development 44大,以非结构化数据为主,为此谷歌率先于2004年提出一套分布式数据处理的技术体系,即能够横向扩展的分布式文件系统(GFS、分布式计算系统(MapReduce和分布式数据库(BigTable等技术,以较低成本很好地解决了大数据面临的困境,奠定了大数据技术的基础。受谷歌论文启发,Apache Hadoop 实现了自己的分布式文件系统(HDFS、分布式计算系
6、统(MapReduce和分布式数据库(Hbase,并将其开源,从而加速了大数据技术和应用的发展。大数据处理平台主要由分布式文件系统、分布式计算平台、分布式存储系统等构成。以Hadoop 为例,其基本组件如图1所示。图1 Hadoop基本组件3 大数据基准测试要素基于Hadoop 和Spark 原理的大数据处理平台在工业界和学术界都得到了广泛应用,谷歌、Facebook 、百度、阿里巴巴等互联网公司早已研发部署了大数据处理系统,越来越多的中级企业开始在大数据基础平台之上开发大数据应用,IDG 调研了751家企业,其中49%的企业反馈已经或正在实现大数据项目4。尽管大数据的平台和应用发展迅速,但缺
7、少基准来衡量大数据平台的性能,而且大数据系统的复杂性、多样性和变化性为评估带来很大困难。大数据基准测试能够评估和比较大数据系统和架构,其主要作用有三个方面。1 它能提升大数据领域的技术、理论和算法,并挖掘出大数据的潜在价值和知识。2 它能帮助系统开发人员设计系统功能、调优系统性能、提升部署方法5。3 它容许用户比较不同系统的性能,帮助选购产品。设计大数据基准测试通常包含以下考虑。1 选择数据和生成数据,确定数据集的大小、类型以及覆盖的应用场景,提供数据集或者数据生成的工具。2 确定测试负载,负载需要覆盖不同的应用场景,具有代表性,能够较全面地反应系统的特性。3 明确测试指标,大数据基准测试主要
8、从性能、能效、性价比、可靠性等角度衡量大数据系统和架构。4 确定基准测试所针对的软件系统和框架,不同框架处适用的场景不同。4 测试流程大数据基准测试主要有三个流程,即数据生成、负载选择和指标选择。简要来说,数据生成主要生成不同的数据类型并满足大数据的四V 特点;负载选择主要是选择合适的负载以运行数据产生结果;指标选择确定衡量的维度,以便从不同方面评估大数据框架。4.1 数据生成大数据基准测试通常要么采用现实数据,要么合成数据。使用现实数据存在两个困难,首先,大多数情况下数据都是企业比较敏感的部分,企业通常不愿意公开提供数据;其次,现实数据只适应于特定应用场景,有其局限性,无法适应所有负载;所以
9、,用数据生成工具合成数据成为大数据基准测试通常采用的方法。数据生成分为数据筛选、数据处理、数据生成和格式转换四步。4.1.1 生成步骤1 数据筛选。在筛选数据时,需要考虑数据和负载的匹配性,数据类型应该符合特定负载的要求,数据集需要来源于特定的大数据应用场景,如电子商务、搜索引擎、社交网络等,并符合真实数据的数据特征和分布特征;根据测试机器的数量和应用的特点,评估数据量的大小。2 数据处理。待处理的数据是建立在能保持原始数据的特性并能消除其中敏感信息的基础上进行相关操作的。针对不同的数据类型,应该采用该类领域中有代表性的数据建模方法对真实数据进行建模,抽取出数据的特征,并将这些特征存储在模型文
10、件中。3 数据生成。数据生成通常需要特定的生成工具来完成,生成工具依据不同类型的数据处理过程来设计。首先需要提出数据的模型特征,基于提取出的模型和所需的数据量生成测试数据。除了需要保证所选用建模方法的模型特性外,还要满足在数据生成过程中通过参数来控制数研究与开发 Research & Development45据生成的并发量和大小,不同的参数可以模拟出不同的应用场景;不同的数据生成工具通过建模步骤,保证生成的测试数据保持原有数据的数据特征,并且可以缩放至大数据规模。4 数据格式转换。这个流程保证生成数据能通过格式转换工具生成符合特定应用的输入格式。4.1.2 示例例如,通过分析应用和负载需求,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 平台 基准 测试 流程 工具 解析
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【精****】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【精****】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。