大数据分析及应用实践全套课件.ppt
《大数据分析及应用实践全套课件.ppt》由会员分享,可在线阅读,更多相关《大数据分析及应用实践全套课件.ppt(196页珍藏版)》请在咨信网上搜索。
1、大数据分析及应用实践大数据分析及应用实践第第1 1章章 认识大数据认识大数据本章内容本章内容1.1 大数据综述1.1.1 大数据的产生1.1.2 大数据的特征1.2 可视化表现形式1.2.1 大数据定义1.2.2 大数据的基本特征1.3 大数据思维1.3.1 大数据思维的变革1.3.2 大数据思维的关注点1.4 大数据的处理过程1.4.1 大数据采集1.4.2 大数据导入与预处理1.4.3 大数据统计与分析1.4.4 大数据挖掘1.5 大数据思维1.5.1 InfoSphereBigInsights简介1.5.2 BigQuery简介1.5.3“魔镜”简介1.6 大数据的应用1.6.1 大数据
2、助石油公司智能营销1.6.2 大数据在乳业公司预测产奶量实验1 认识大数据分析工具“魔镜”1.1 1.1 大数据综述大数据综述 1.1.1 1.1.1 大数据的产生大数据的产生随着互联网逐渐过渡到物联网,数据从而得到爆发式增长,因而产生了各色各样的大数据。网络中互联的主体不仅仅是人,可以是智能终端、传感器、乃至可穿戴设备等。大数据(bigdata,megadata)又称巨量数据,指的是海量、高增长率和多样化的信息资产。大数据革命正在对世界产生巨大的系统性影响和深远意义。1.1.2 1.1.2 大数据大数据的的特征特征 与传统数据的产生方式相比,大数据具有三个明显的特征:数据量大:数据量大是大数
3、据的明显特征,一般计量单位都是PB、EB甚至ZB。非结构性:大数据既包含结构化数据也包含非结构化数据,而且通过特定的大数据技术从大量非结构化数据中提取有用的信息。实时性:在互联网高速发展的背景下,我们所谈到的大数据不仅仅数量巨大,实时性、动态性成了大数据的另一重要特征。1.2 1.2 大数据概念大数据概念 1.2.1 1.2.1 大数据定义大数据定义 麦肯锡(美国首屈一指的咨询公司)是研究大数据的先驱。在其报告Bigdata:Thenextfrontierforinnovation,competition,andproductivity中给出的大数据定义是:大数据指的是大小超出常规的数据库工具
4、获取、存储、管理和分析能力的数据集。即大数据是现有数据库管理工具和传统数据处理手段很难处理的大型、复杂的数据集,其涉及到采集、存储、搜索、共享、传输和可视化等方面。1.2.2 1.2.2 大数据的基本特大数据的基本特点点 大数据的特点可归纳为“4V”,即Volume(容量),即海量的数据规模;Variety(种类),即多样的数据类型;Velocity(速度),即快速的数据流转和动态的数据体系;最重要的Value(价值),即巨大的数据价值。1.3 1.3 大数据思维大数据思维 1.3.1 1.3.1 大数据思维的变革大数据思维的变革 大数据时代将带来深刻的思维转变,大数据不仅将改变每个人的日常生
5、活和工作方式,改变商业组织和社会组织的运行方式。1.从样本思维到总体思维意识的变革。2.容错思维意识的变革。3.从关注因果关系到相关关系的思维变革。4.从自然思维到智能思维的变革。1.3.2 1.3.2 大数据思维的关注点大数据思维的关注点 大数据思维是客观存在,大数据思维是新的思维观。大数据思维开启了一次重大的时代转型,人们对数据的关注点也发生了很大变化。1.数据思维的最核心是利用数据解决问题。2.大数据关注“有用”。3.由关注精确度转变为关注效率。4.关注定制产品。1.41.4大数据的处理过程大数据的处理过程 1.4.1 1.4.1 大数据采集大数据采集 在计算机广泛应用的今天,数据采集的
6、重要性是十分显著的。它是计算机与外部物理世界连接的桥梁。各种类型信号采集的难易程度差别很大。数据采集系统是结合基于计算机或者其他专用测试平台的测量软硬件产品来实现灵活的、用户自定义的测量系统。数据采集技术广泛应用在各个领域,比如摄像头,麦克风,都是数据采集工具。1.4.2 1.4.2 大数据导入大数据导入/预处理预处理 虽然采集端本身会有很多数据库,但是如果要对这些海量数据进行有效的分析,还是应该将这些来自前端的数据导入到一个集中的大型分布式数据库,或者分布式存储集群,并且可以在导入基础上做一些简单的清洗和预处理工作。1.4.3 1.4.3 大数据统计大数据统计与与分析分析 大数据时代的来临将
7、对我们的现实生活、企业的运营管理模式提出了新的挑战,也带来新的市场机会。大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些数据进行专业化处理。可以说大数据分析是决策过程中的决定性因素,也是大数据时代发挥数据价值的关键环节。大数据分析技术帮助企业了解客户、锁定资源、规划生产、开拓新的业务。1.4.4 1.4.4 大数据挖掘大数据挖掘 从海量数据中发现有价值的信息,把这些数据转化成有组织的知识,这种需求导致了大数据挖掘的诞生。数据挖掘主要是在现有数据上面进行基于各种算法的计算,从而起到预测(Predict)的效果,从而实现一些高级别数据分析的需求。1.5 1.5 大数据分析工具简介大数据分
8、析工具简介 1.InfoSphere BigInsights1.InfoSphere BigInsights 由IBM推出的大数据平台InfoSphereBigInsights为用于处理流数据和持久性数据的软件。旨在帮助公司从大量不同范围的数据中挖掘商机并进行分析,为了能够对大量丰富的数据进行筛选,BigInsights提供了内置分析技术和无分享硬件集群。它可以透明地分配存储在附加至集群中各种节点的磁盘上的文件数据,将应用程序的子任务分配给位于目标数据子集附近的处理器。2.BigQuery2.BigQuery BigQuery是Google推出的一项Web服务,该服务让开发者可以使用Googl
9、e的架构来运行SQL语句对超级大的数据库进行操作。BigQuery旨在分析数十亿行近似的数据,使用类SQL语法。BigQuery支持分析交互风格,使用SELECT命令构建查询。查询语言包括支持标准操作,比如joining、sorting和grouping,以及内嵌数据结构。可以支持统计函数,比如count、sum、average、variance和standarddeviation(标准偏差)等。3.3.魔镜魔镜(moojnn)moojnn)大数据可视化处理软件魔镜为国云数据科技有限公司研发,为我国大数据领域领先的分析平台。魔镜支持各种各样的数据源。无论是Excel文件、传统数据库、大数据、集
10、成数据,甚至微博微信淘宝,魔镜都可以支持。魔镜颠覆传统Excel分析和报表工具,自动拖拽建模。操作简单、应用方便。魔镜中现为我国最大的可视化分析挖掘平台、开放的数据市场和拥有超大的视觉效果库。目前,已超过一万多家企业在使用,魔镜为提供全行业大数据解决方案。1.6 1.6 大数据应用案例大数据应用案例 1.6.1 1.6.1 大数据助石油公司精准管理、智能营销大数据助石油公司精准管理、智能营销 国内某石油公司希望通过其庞大的销售数据了解到销售代表的销售业绩与KPI,希望能从各个角度对整体的销售数据进行切片分析并根据市场走势制定合适的营销策略。该企业选择大数据分析工具魔镜来预测综合市场指数,全维度
11、的分析数据并挖掘出数据背后隐藏的巨大的价值。员工KPI考核指标客户分析石油生产流程监控管理 1.6.21.6.2大数据在乳业公司大数据在乳业公司预测产量值预测产量值 国内某乳业公司为了保证提供优质的鲜乳原料,实现真正意义上的“横跨东西、纵跨南北”的战略布局,其原奶事业部想对取决于五大区的奶牛产奶量和奶牛数量的供奶量进行预测。同时,供奶地区较多,地域跨度大,奶牛存栏情况和不同泌乳周期的产奶量等都各不相同,而原奶事业部自身的可视化展示效果较为单一。如何将不同的地域、不同的产奶量等用多元的可视化效果展示都是原奶事业部想要解决的问题。新投产泌乳牛的数量情况 大数据分析工具魔镜为改乳业公司建立的奶量预测
12、系统是通过业务逻辑,以历史供奶量为基准进行估算和预测的。大数据分析工具魔镜的大数据挖掘功能可以通过历史数据,并利用逻辑回归算法进行数据预测。预测置信度高,但前期的数据积累必不可少。未来对奶量的预测还应建立业务模型,列举影响供奶的内外因,设置权重,从而回归预测。谢 谢!第第2 2章章 大数据技术基础大数据技术基础2.1 基础架构支持2.1.1 Hadoop2.1.2 Hbase2.1.3 MapReduce2.1.4 Hive2.1.5 Pig2.1.6 R语言2.2 云计算2.2.1 云计算的特点2.2.2 云计算与大数据2.3 数据采集2.3.1 数据采集的意义2.3.2 数据采集的方法2.
13、4 数据存储2.4.1 数据存储的概念2.4.2 数据存储方式2.4.3 常见数据源类型实验1 识大数据分析工具“魔镜”本章内容本章内容目前,建立在大数据基础之上的大分析系统有两个探索方向。方向之一是:互联网企业直接在Hadoop基础之上,借助于云计算模式,通过加强开源数据库系统Hive/Hbase等工具能力,逐步提升大分析所需的分析能力。方向之二是:传统的数据仓库处理厂家引入Hadoop云计算的技术,扩展原有的信息处理能力,融合传统数据仓库能力和Hadoop云计算能力,在应用层支撑更丰富的大分析能力。不管怎样,进行大数据的大分析,需要一定的架构支撑和技术支持。2.1 2.1 基础架构支持基础
14、架构支持2.1.1 Hadoop2.1.1 HadoopHadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop实现了一个分布式文件系统HDFS(HadoopDistributedFileSystem)。Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。Hadoop之父Hadoop Hadoop项目的发起人为DougCutting,称之为Hadoop之父。1985年,Cutting毕业于美国
15、斯坦福大学。DougCutting主导的ApacheNutch项目是Hadoop软件的源头,该项目始于2002年,是ApacheLucene的子项目之一。Hadoop技术架构 2.1.2 HBase2.1.2 HBase HBase是运行在Hadoop上的NoSQL数据库,它是一个分布式的和可扩展的大数据仓库,也就是说HBase具有HDFS的分布式处理的优势,HBase本身就是十分强大的数据库,它能够融合key/value存储模式带来实时查询的能力,以及通过MapReduce进行离线处理或者批处理的能力。HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。所谓非结构化数据
16、存储就是说HBase是基于列的而不是基于行的模式。2.1.3 MapReduce2.1.3 MapReduceMapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。Map-映射,Reduce-归约。MapReduce采用分而治之的思想,把对大规模数据集的操作,分发给一个主节点管理下的各个分节点共同完成,然后通过整合各个节点的中间结果,得到最终结果。简单地说,MapReduce就是任务的分解与结果的汇总。在Hadoop中,每个MapReduce任务都被初始化为一个Job,每个Job又可以分为两种阶段:map阶段和reduce阶段。这两个阶段分别用两个函数表示,即map函数和
17、reduce函数。map函数接收一个形式的输入,然后同样产生一个形式的中间输出,Hadoop函数接收一个如形式的输入,然后对这个value集合进行处理,每个reduce产生0或1个输出,reduce的输出也是形式的。2.1.4 Hive2.1.4 HiveHive是建立在Hadoop上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。Hive定义了简单的类SQL查询语言,称为HQL,它允许熟悉SQL的用户查询数据。同时,这个语言也允许熟悉MapReduce开发者的开发自定义的mapper和red
18、ucer来处理内建的mapper和reducer无法完成的复杂的分析工作。2.1.5 Pig2.1.5 PigPig是一个基于Hadoop的大规模数据分析平台,Pig包含两个部分:PigInterface,PigLatin。它提供的SQL-LIKE语言叫PigLatin,该语言的编译器会把类SQL的数据分析请求转换为一系列经过优化处理的MapReduce运算。Pig为复杂的海量数据并行计算提供了一个简单的操作和编程接口。2.1.6 R2.1.6 R语言语言 R是一套完整的数据处理、计算和制图软件系统。其功能包括:数据存储和处理系统;数组运算工具(其向量、矩阵运算方面功能尤其强大);完整连贯的统
19、计分析工具;优秀的统计制图功能;简便而强大的编程语言:可操纵数据的输入和输出,可实现分支、循环。R语言擅长在Hadoop分布式文件系统中存储的非结构化数据的分析。R现在还可以运行在HBase这种非关系型的数据库以及面向列的分布式数据存储之上。2.2 2.2 云计算云计算 云计算技术是硬件技术和网络技术发展到一定阶段而出现的一种新的技术模型。云计算是分布式存储、网格计算、虚拟化、负载均衡、热备份冗余等传统计算机和网络技术发展融合的产物。云计算是一种计算模型,它将计算任务分布在大量计算机构成的资源池上,使用户能够按照自己的需要获取计算、存储和信息服务。这里提到的资源池也称为“云”。“云”是一些可以
20、进行自我维护和自我管理的虚拟计算资源,通常是一些大型服务器集群,包括计算服务器、存储服务器和宽带资源等。2.2.1 2.2.1 云计算的特点云计算的特点1.可扩展性:从资源低效率的分散使用到资源高效的集约化使用正是云计算的基本特征之一。2.按需提供资源服务:云计算系统实现按需向用户提供资源能大大节省用户的硬件资源开支。3.虚拟化:现在的云计算平台的重要特点是利用软件来实现硬件资源的虚拟化管理、调试及应用。4.超大规模:应用于“云”的服务器数量就在几十万甚至上百万之多,“云”也会给用户带来前所未有的计算能力。5.高可靠性和安全性:在使用“云”的服务的过程中,服务器使用了数据多副本容错、计算节点同
21、构可互换等措施在保障服务的高可靠性。2.2.2 2.2.2 云计算与大数据云计算与大数据云计算与大数据之间是相辅相成,相得益彰的关系。云计算就是硬件资源的虚拟化;大数据分析就是海量数据的高效处理。大数据挖掘处理需要云计算作为平台,而大数据涵盖的价值和规律则能够使云计算更好的与行业应用结合并发挥更大的作用。云计算将计算资源作为服务支撑大数据的挖掘,而大数据的发展趋势是对实时交互的海量数据查询、分析提供了各自需要的价值信息。2.3 2.3 数据采集数据采集2.3.1 2.3.1 数据采集的意义数据采集的意义足够的数据量是企业大数据战略建设的基础,数据采集成为大数据分析的前奏。数据采集是大数据价值挖
22、掘中重要的一环,其后的分析挖掘都是建立在数据采集的基础之上。在计算机广泛应用的今天,数据采集的重要性是十分显著的。各种类型信号采集的难易程度差别很大。实际采集时,噪声也可能带来一些麻烦。数据采集时,有一些基本原理要注意,还有更多的实际的问题要解决。2.3.2 2.3.2 数据采集的方法数据采集的方法1.基于物联网采集方法2.系统日志采集方法3.网络数据采集方法4.其他数据采集方法2.4 2.4 大数据存储大数据存储2.4.12.4.1数据存储的概念数据存储的概念 大数据分析相比于传统的数据仓库应用,具有数据量大、查询分析复杂等特点。大数据存储由于其本身存在的4V特征,传统的存储技术不能满足大数
23、据存储的需要,通过ETL技术数据资源被从源系统中提取,并被转换为一个标准的格式,再使用NoSQL数据库进行数据库存取管理,通过分布式网络文件系统将数据信息存储在整个互联网络资源中,并用可视化的操作界面随时满足用户的数据处理需求。2.4.2 2.4.2 数据存储方式数据存储方式 针对大数据的存储,主要采用以下两种存储方式。1.开放系统的直连式存储(DirectAttachedStorage,DAS),外部存储设备都是直接挂接在服务器内部总线上,数据存储设备是整个服务器结构的一部分。直连存储无法共享,因此经常出现的情况是某台服务器的存储空间不足,而其他一些服务器却有大量的存储空间处于闲置状态却无法
24、利用。2.网络附加存储(NetworkAttachedStorage,NAS),它采用独立于服务器,单独为网络数据存储而开发的一种文件服务器来连接所存储设备。这样数据存储就不再是服务器的附属,而是作为独立网络节点而存在于网络之中,可由所有的网络用户共享。2.4.3 2.4.3 常见数据源类型常见数据源类型1.文本类型:如Excel、TXT、CSV等。2.数据库类型:如MySQL、SQLSever、Oracle、PostgreSQL等。3.数据集群类型:Hive、Spark等。谢 谢!第第3 3章章 大数据管理大数据管理本章内容本章内容3.1 3.1 大数据的清洗3.1.1 3.1.1 数据质量
25、数据质量3.1.2 3.1.2 数据清洗数据清洗的作用的作用3.1.3 3.1.3 数据清洗数据清洗的方法和过程的方法和过程3.1.4 3.1.4 数据清洗实例数据清洗实例3.2 3.2 数据类型和数据转换3.2.1 3.2.1 数据类型数据类型3.2.2 3.2.2 数据转换数据转换3.3 3.3 大数据的提取和加载实验3数据处理3.1 3.1 大大数据数据的清洗的清洗 大大数数据据时时代代下下,管管理理的的关关键键依依靠靠着着数数据据,但但随随着着信信息息量量的的不不断断增增长长、智智慧慧工工具具的的不不断断涌涌现现,如如何何对对数数据据进进行行有有效效清清洗洗实实现现数数据据的的真真实实
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 分析 应用 实践 全套 课件
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【精***】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【精***】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。