EMC-Greenplum-统一数据分析平台解决方案PPT学习课件.ppt
《EMC-Greenplum-统一数据分析平台解决方案PPT学习课件.ppt》由会员分享,可在线阅读,更多相关《EMC-Greenplum-统一数据分析平台解决方案PPT学习课件.ppt(48页珍藏版)》请在咨信网上搜索。
,#,Copyright 2010 EMC Corporation.All rights reserved.,Data Computing Division,EMC Greenplum Unified Analytics Platform,统一数据分析平台,Alex Liu,刘琳,EMC Data Computing Division,Cloud Meets Big Data,What is Big Data?,Cloud Computing,What is changed?,Greenplum UAP,Greenplum Database,Greenplum HD,Greenplum Chorus,Greenplum DCA,Agenda,什么是大数据?,维基百科对大数据的定义,即无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合,大数据呈现出三大特征,即,3V,数据大,(Volume),,例如,Facebook,每天在,30,万台服务器上处理,25Tb,数据,时效性要求高,(Velocity),,例如搜索引擎要求在几分钟内为用户查询新闻,种类和来源多样化,(Variety),,除了结构化的数据、半结构化、非结构化的数据大量产生,Source:2011 IDC Digital Universe Study,1 ZB=1024 EB,1 EB=1024 PB,增长,44X,2020:35.2 Zettabytes,下一个十年,数据源将会,数据源正在膨胀,Cloud Meets Big Data,What is Big Data?,Cloud Computing,What is changed?,Greenplum UAP,Greenplum Database,Greenplum HD,Greenplum Chorus,Greenplum DCA,Agenda,大数据解决之道,-,云计算,古代,人们用牛来拉重物。当一头牛拉不动一根圆木时,他们不曾想过培育更大更壮的牛。同样,我们也不需要尝试开发超级计算机,而应该试着结合使用更多计算机系统。,Grace Hopper,云计算的特点,云计算特点,内容,超大规模,云”具有相当的规模,,Google,云计算已经拥有,100,多万台服务器,亚马逊、,Yahoo,等公司的“云”均拥有几十万台服务器。“云”能赋予用户前所未有的计算能力。,虚拟化,云计算支持用户在任意位置、使用各种终端获取服务。所请求的资源来自“云”,而不是固定的有形的实体。,高可靠性,“云”使用了数据多副本容错、计算节点同构可互换等措施来保障服务的高可靠性,使用云计算比使用本地计算机更加可靠。,通用性,云计算不针对特定的应用,在“云”的支撑下可以构造出千变万化的应用,同一片“云”可以同时支撑不同的应用运行。,高可扩展性,“云”的规模可以动态伸缩,满足应用和用户规模增长的需要。,按需服务,“云”的规模可以动态伸缩,满足应用和用户规模增长的需要。,低总体成本,“云”的特殊容错措施使得可以采用极其廉价的节点来构成云。,Cloud Meets Big Data,What is Big Data?,Cloud Computing,What is changed?,Greenplum UAP,Greenplum Database,Greenplum HD,Greenplum Chorus,Greenplum DCA,Agenda,驾驭大数据能够改变什么?,2011,年,3,月,11,日日本大地震发生后仅,9,分钟,美国国家海洋和大气管理局,(NOAA),就发布了详细的海啸预警。,NOAA,通过对海洋传感器获 得的实时数据进行计算机模拟,制作的海啸影响模型出现在各大网站。,驾驭大数据能够改变什么?,电信行业借助社交网络分析,对客户的通话数据进行分析,能够识别出这部分“影响者”。社交分析并不是分析单一用户的通话记录,而是分析各用户所处的社交网络。,房,驾驭大数据能够改变什么?,全球金融危机带给我们的最大教训就是加强风险的监管力度,如何更好的进行风险管理已经成为银行等金融机构重要的课题。,Cloud Meets Big Data,Greenplum UAP,Greenplum Database,Greenplum HD,Greenplum Chorus,Greenplum DCA,Agenda,What is it?,Private/Hybrid Cloud Infrastructure or Appliance,Data Access&Query Layer,3,rd,Party/Partner Tools&Services,Greenplum Chorus-Analytic Productivity Layer,Greenplum Hadoop,Data Scientist,Data Engineer,Data Analyst,Bl Analyst,LOB User,Greenplum Database,Data Platform Admin,Data Science Team,The Greenplum Unified Analytics Platform,EMC,Greenplum,Greenplum Product Line,Cloud Meets Big Data,Greenplum UAP,Greenplum Database,Greenplum HD,Greenplum Chorus,Greenplum DCA,Agenda,Shared-Nothing,架构优势,DB,SAN/,共享存储,DB,DB,DB,DB,Disk,DB,DB,DB,DB,Disk,Disk,Disk,Disk,Master,Shared-Everthing,Shared-Storage,Shared-Nothing,红色表示共享资源,绿色表示无共享资源,数据均匀分布,并行处理的关键,43,Oct 20 2005,12,64,Oct 20 2005,11,45,Oct 20 2005,42,46,Oct 20 2005,64,77,Oct 20 2005,32,48,Oct 20 2005,12,Order,Order,Order Date,Customer ID,50,Oct 20 2005,34,56,Oct 20 2005,21,63,Oct 20 2005,15,44,Oct 20 2005,10,53,Oct 20 2005,82,55,Oct 20 2005,55,数据均匀分布在每一块磁盘上面,发挥每一块磁盘性能,根本上解决,I/O,瓶颈,支持数据,Distribution,分布和,Partition,分区,Master Node,高可用性,Standby Master Node,当,Primary Master,出现故障时,热备份,Standby Master,担它全部工作,热备份,Standby Master,通过复制进程,保持与,Primary Master,的交易日志同步一致,Segment Node,高可用性,Mirror Technology,RAID,保护驱动器故障,,Mirror S,egment,保护服务器故障,同一份数据在集群内有,4,份,copy,Mirror,Segment,接管不丢失服务,快速在线差异恢复,大规模并行处理优势,真正意义上的并行处理,利用原生,MapReduce,模型实现,业界效率最高的并行处理引擎,全部,SQL,逻辑都可以并行在每一个,Segment Node,执行,负载根据,Segment Node,数量自动均衡,Segment,Segment,Segment,Segment,Master,并行加载和导出优势,业界最快并行加载速度,10TB/Hr,并行加载技术充分利用分布式计算和分布式存储的优势,保证发挥出每一块,Disk,的,I/O,资源,并行加载比串行加载,速度提高,40-50,倍以上,减少,ETL,窗口时间,增加,Segment,和,ETL,Server,,并行加载速度呈线性增长,行列组合存储优势,列存储,少数字段查询,大幅节省,I/O,操作,大数据量频繁访问,性能提升,30%,以上,Column 1,Column 2,Column 3,Row 1,Row 2,Row 3,行存储,大多数字段频繁查询,随机行访问较多,组合存储,按照应用类型,随需定制,Partition,存储方式,达到最优化访问性能,动态在线扩容优势,系统永不停机,Greenplum,动态在线扩容技术,可以保证客户在扩容期间不宕机,不能动态在线扩容,高可用性无从谈起,宕机意味着利润的流失,客户需要可靠的,IT,环境,在线数据重分布,0101,0000,0101,0000,0101,0000,0101,0000,0101,0000,0000,0000,0000,0101,0000,0101,0000,0101,0000,0101,0101,0000,0101,0000,0101,0000,0101,0000,0101,0000,0000,0000,0000,0101,0000,0101,0000,0101,0000,0101,0101,0101,0101,0101,0101,0101,0101,0101,0101,0101,0000,0101,0000,0101,0000,0101,0000,0101,0000,0000,0000,0000,0101,0000,0101,0000,0101,0000,0101,0101,0000,0101,0000,0101,0000,0101,0000,0101,0000,0000,0000,0000,0101,0000,0101,0000,0101,0000,0101,0101,0000,0101,0000,0101,0000,0101,0000,0101,0000,0000,0000,0000,0101,0000,0101,0000,0101,0000,0101,0101,0000,0101,0000,0101,0000,0101,0000,0101,0000,0000,0000,0000,0101,0000,0101,0000,0101,0000,0101,在线数据重分布,在线数据重分布,Cloud Meets Big Data,Greenplum UAP,Greenplum Database,Greenplum HD,Greenplum Chorus,Greenplum DCA,Agenda,开源,Apache,项目,Hadoop,核心包括,:,-HDFS,分布式文件系统,-Map/Reduce,分布式计算,用,JAVA,编写,运行在,:,Linux,Mac OS/X,and Solaris,开放硬件平台,Shuffle,Map,Reduce,Whatis Hadoop,?,2007,2008,2009,2010,The Datagraph Blog,Source:Hadoop Summit Presentations,Hadoop,在各行业的应用,HDFS,Hadoop,分布式文件系统,MapReduce,分布式开发框架,Pig,分布式开发语言,Zookeeper,高可靠性分布式协调服务,Hive,基于,Hadoop,的数据仓库工具,HBase,一个高可靠性、高性能的非结构化数据库,Hadoop,组件,Greenplum HD MapR,Enterprise-Ready Hadoop Platform for Unstructured Data,Faster,2 5x,速度提高于,Apache Hadoop,Reliable,高可用性,镜像,Easier to Use,可使用,NFS,系统管理,DFSIO,(higher is better),Terasort,(lower is better),10 node cluster,2x Quad-Core,24G DRAM,12 x 1TB SATA Drives 7200 rpm,Quad NICs,Elapsed time in minutes,MB/sec,3.5 TB,GPHD MapR,Apache,Greenplum HD MapR,更快的速度,Lockless Storage Service,消除存储抢占和竞争,Direct Block Device IO,发挥全部存储的,IO,性能,Hadoop Direct Shuffle,利用,Name Node,的可扩展性,提供更快并行计算性能,Client Side Compression,实用自动压缩减少网络开销,C vs Java,消除,JAVA,的回收机制,使用,C,编写,为什么有更快的速度?,Greenplum HD MapRJob Tracker,高可用性,保证业务连续性,专为关键业务设计,自动安全重启动,没有任务丢失的重新连接,稳定的任务执行状态,Greenplum HD MapR Distribution,Enterprise HD MapReduce,Enterprise HD Lockless Storage Services,Distributed,Name Node,Job Tracker HA,Greenplum HD MapR Distributed Name Node,所有,Hadoop,节点都进行分布式处理,自动和已处理的失效机制,稳固的元数据,高达,1,万亿个文件存储,HadoopNode,NN,HadoopNode,NN,HadoopNode,NN,HadoopNode,NN,HadoopNode,NN,HadoopNode,NN,HadoopNode,NN,HadoopNode,NN,HadoopNode,NN,HadoopNode,NN,Greenplum HD MapR,管理简单,直观,洞察力,完整,查看一个或者多个节点,GPDB&GPHD,并行访问,Analytic Productivity,Applications,Tools,Chorus,Greenplum Database,Hadoop,Compute,Storage,SQL DBEngine,Compute,Storage,MapReduceEngine,Data Computing Interfaces,SQL,MapReduce,In-Database Analytics,Parallel Data Loading(batch or real-time),All Data Types,unstructured data,structured data,temporal data,geospatial data,sensor data,spatial data,paralleldata exchange,paralleldata exchange,Network,Cloud Meets Big Data,Greenplum UAP,Greenplum Database,Greenplum HD,Greenplum Chorus,Greenplum DCA,Agenda,数据分析现状,对企业数据仓库的访问严格管理,数据仓库中的计算负载通常很大,有可能可以发现非常有价值的见解的深入分析不被鼓励,数据分析的结果不再存储在数据库中,而是通过邮件来交换共享,Greenplum Chorus,主要给三类用户提供帮助,数据库架构师和管理员,负责管理数据库和提供数据访问,监控数据流动,数据分析师,负责从数据推导见解,和数据库管理员紧密合作,公司管理层,负责解释投资回报,关注对数据的快速有效分析,分析沙箱,公有云数据,普通硬件,虚拟机,Chorus,Chorus,自我服务的分析架构,Hadoop,企业数据仓库,Chorus,主要功能,企业数据云,整合数据源,整合结构化数据和非结构化数据,自我服务的架构,自己创建沙箱数据库,加快数据分析和形成商业方案的进程,协作环境,分析师通力合作,发现和创建见解,共享分析结果,代码和数据,开放和可扩展的平台,Chorus,与企业数据仓库,数据仓库,管理数据,生成企业运营报告和财务汇总,,Chorus,一个自我服务的架构,支持针对不同业务的分析沙箱,分析的结果可以影响企业发展方向和方案,Chorus,与,Hadoop,把,Hadoop,作为一个数据源注册到,Chorus,中,浏览,Hadoop,分布式文件系统,(HDFS),目录,预览,HDFS,文件,把,HDFS,文件添加到分析沙箱中,为,HDFS,文件添加注解,统一的数据分析平台,结构化数据,(,数据库表,),非结构化数据,(HDFS,文件,),Cloud Meets Big Data,Greenplum UAP,Greenplum Database,Greenplum HD,Greenplum Chorus,Greenplum DCA,Agenda,EMC Greenplum DCA,2 GPDB Master Servers,2 10GE Switches,Administrative Switch,Functional,Module,Functional,Module,Functional,Module,Functional,Module,DCA,模块化灵活,配置,GPDB,HD,Greenplum HD Module,Greenplum DB Module,DIA,DIA Module,Greenplum HD Module,28TB,capacity(3 copies,uncompressed),Each server contains:,2 sockets/12cores-48GB Mem,12x 2TB storage,Greenplum Database Module,9TB or 31TB capacity(uncompressed),Each server contains:,2 sockets/12cores-48GB Mem,12x 600GB or 2TB storage,Data Integration Accelerator Module,70TB capacity,Each server contains:,2 sockets/12cores-48GB Mem,12x 2TB storage,Example 3 Rack Configuration,GP DB,DIA,GP HD,GP HD,GP HD,GPDB,GP HD,GP DB,GP HD,DCA Modules Specifications,Module Type,Greenplum DB Standard Module,Greenplum DB High Capacity Module,Greenplum HD Module,Greenplum DIA Module,Software,Greenplum Database,Greenplum Database,Greenplum HD,Certified Partner Software,Segment Server,2 sockets/12 cores,Total Memory,48 GB,Storage,Drives,600 GB SAS,2 TB SATA,2 TB SATA,2 TB SATA,Total Number of Storage Drives,48,Usable Capacity(uncompressed),9 TB,31 TB,28 TB,70 TB,Usable Capacity(compressed),36 TB,124 TB,112 TB,Not,Applicable,- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- EMC Greenplum 统一 数据 分析 平台 解决方案 PPT 学习 课件
咨信网温馨提示:
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【a199****6536】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【a199****6536】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【a199****6536】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【a199****6536】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。
关于本文