分享
分销 收藏 举报 申诉 / 41
播放页_导航下方通栏广告

类型大数据应用解决专业方案.doc

  • 上传人:精***
  • 文档编号:2947534
  • 上传时间:2024-06-11
  • 格式:DOC
  • 页数:41
  • 大小:1.80MB
  • 下载积分:14 金币
  • 播放页_非在线预览资源立即下载上方广告
    配套讲稿:

    如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。

    特殊限制:

    部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。

    关 键  词:
    数据 应用 解决 专业 方案
    资源描述:
    大数据应用 处理方案 目 录 1. 大数据概述 6 1.1. 概述 6 1.2. 大数据定义 6 1.3. 大数据技术发展 8 2. 大数据应用 11 2.1. 大数据应用叙述 11 2.2. 大数据应用架构 13 2.3. 大数据行业应用 13 2.3.1. 医疗行业 13 2.3.2. 能源行业 14 2.3.3. 通信行业 14 2.3.4. 零售业 15 3. 大数据处理方案 16 3.1. 大数据技术组成 16 3.1.1. 分析技术 16 3.1.1.1. 可视化分析 16 3.1.1.2. 数据挖掘算法 16 3.1.1.3. 估计分析能力 16 3.1.1.4. 语义引擎 16 3.1.1.5. 数据质量和数据管理 17 3.1.2. 存放数据库 17 3.1.3. 分布式计算技术 18 3.2. 大数据处理过程 20 3.2.1. 采集 20 3.2.2. 导入/预处理 21 3.2.3. 统计/分析 21 3.2.4. 挖掘 21 3.3. 大数据处理关键技术-Hadoop 21 3.3.1. Hadoop组成 22 3.3.2. Hadoop优点: 25 3.3.2.1. 高可靠性。 25 3.3.2.2. 高扩展性。 25 3.3.2.3. 高效性。 25 3.3.2.4. 高容错性。 25 3.3.3. Hadoop不足 25 3.3.4. 关键商业性“大数据”处理方案 26 3.3.2.5. IBM InfoSphere大数据分析平台 26 3.3.2.6. Or a c l e Bi g Da t aApplianc 27 3.3.2.7. Mi c r o s o f t S QLServer 27 3.3.2.8. Sybase IQ 28 3.3.5. 其它“大数据”处理方案 28 3.3.2.9. EMC 28 3.3.2.10. BigQuery 29 3.3.6. 大数据”和科技文件信息处理 29 3.4. 大数据处理技术发展前景 29 3.4.1. 大数据复杂度降低 29 3.4.2. 大数据细分市场 30 3.4.3. 大数据开源 30 3.4.4. Hadoop将加速发展 30 3.4.5. 打包大数据行业分析应用 30 3.4.6. 大数据分析革命性方法出现 31 3.4.7. 大数据和云计算:深度融合 31 3.4.8. 大数据一体机陆续公布 31 4. 基于基站大数据应用及案例 32 4.1. 气象灾难应急短信公布平台 32 4.1.1. 概述 32 4.1.1.1. 项目背景 32 4.1.1.2. 平台概述 32 4.1.2. 平台建设特点和标准 32 4.1.2.1. 建设特点 32 4.1.2.2. 建设标准 32 4.1.2.3. 大数据管理平台特点 33 4.1.3. 平台整体架构 33 4.1.3.1. 建设原理 33 4.1.3.2. 平台总体设计 35 1. 平台总体结构 35 2. 平台技术架构 36 4.1.3.3. 平台技术思绪 37 4.1.3.4. 平台技术路线 38 1. 内存数据库 38 2. 短信发送多链路配置 38 3. 队列缓存 38 4. 参数可配置 38 4.1.3.5. 平台性能要求 38 4.1.4. 平台网络拓扑 38 4.1.5. 平台关键步骤 39 4.1.5.1. 平台数据步骤 39 4.1.5.2. 平台业务主步骤 40 4.1.5.3. 短信下发审批步骤 41 4.1.5.4. 信令分析处理步骤 42 4.1.5.5. 短信发送步骤 43 4.1.6. 平台功效模块 43 4.1.6.1. 信令分析子系统 43 4.1.6.2. 短信发送子系统 44 1. 短信发送功效 44 2. 短信回执接收功效 44 3. 短信批量发送管理功效 45 4. 统计报表 45 4.1.6.3. 管理子系统 45 1. 用户管理 45 2. 权限管理 46 3. 实时监控 46 4. 日志管理 46 5. 基站位置信息管理 46 6. 系统参数配置管理 46 4.1.6.4. 内容数据库子系统 46 4.1.7. 平台外部接口 47 4.1.7.1. 信令采集接口 47 1. 接口说明 47 2. 数据采集模式 47 4.1.7.2. 短信发送接口 47 1. 短信发送通知接口 47 2. 短信发送状态查询接口 47 3. 短信发送接口 47 4.1.7.3. 基站位置信息接口 48 1. 数据同时模式 48 2. 基站位置信息全量同时接口 48 3. 基站位置信息增量同时接口 48 4.2. 旅游客源分析 48 4.2.1. 建设目标 48 4.2.2. 整体方案 49 4.2.2.1. 方案思绪 49 4.2.2.2. 分析范围 49 4.2.2.3. 方案特点 50 4.2.3. 方案设计 51 4.2.3.1. 系统关系 51 4.2.3.2. 系统架构 51 1. 数据分析后台能力 52 2. Web前台能力 52 4.2.3.3. 数据采集 53 4.2.3.4. 业务分析 53 1. 总体分析步骤 53 2. 景区综合流量统计分析 54 3. 景区游客起源地组成份析 55 4. 景区全网总游客实时估算 57 5. 景区流量预判模型分析 58 6. 景区流量上限告警 59 7. 旅游景点热度排名分析 59 8. 旅游线路归类统计 60 9. 景区和相关场所关联分析 61 4.2.3.5. 界面功效介绍 61 1. 菜单功效列表 62 2. 界面辅助功效介绍 63 3. 运行部门应用Portal 64 4. 用户权限 64 1. 大数据概述 1.1. 概述 大数据,IT行业又一次技术变革,大数据浪潮汹涌而至,对国家治理、企业决议和个人生活全部在产生深远影响,并将成为云计算、物联网以后信息技术产业领域又一重大创新变革。未来十年将是一个“大数据”引领智慧科技时代、伴随社交网络逐步成熟,移动带宽快速提升、云计算、物联网应用愈加丰富、更多传感设备、移动终端接入到网络,由此而产生数据及增加速度将比历史上任何时期全部要多、全部要快。 数据技术发展历史图一所表示: 图一 1.2. 大数据定义 “大数据”是一个涵盖多个技术概念,简单地说,是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理数据集合。IBM将“大数据”理念定义为4个V,即大量化(Volume)、多样化(Variety)、快速化(Velocity)及由此产生价值(Value)。图二; 图二 要了解大数据这一概念,首先要从"大"入手,"大"是指数据规模,大数据通常指在10TB(1TB=1024GB)规模以上数据量。大数据同过去海量数据有所区分,其基础特征能够用4个V来总结(Vol-ume、Variety、Value和Veloc-ity),即体量大、多样性、价值密度低、速度快。 Ø 数据体量巨大。从TB等级,跃升到PB等级。 Ø 数据类型繁多,如前文提到网络日志、视频、图片、地理位置信息,等等。 Ø 价值密度低。以视频为例,连续不间断监控过程中,可能有用数据仅仅有一两秒。 Ø 处理速度快。1秒定律。最终这一点也是和传统数据挖掘技术有着本质不一样。物联网、云计算、移动互联网、车联网、手机、平板电脑、PC和遍布地球各个角落多种多样传感器,无一不是数据起源或承载方法。 大数据技术是指从多种多样类型巨量数据中,快速取得有价值信息技术。处理大数据问题关键是大数据技术。现在所说"大数据"不仅指数据本身规模,也包含采集数据工具、平台和数据分析系统。大数据研发目标是发展大数据技术并将其应用到相关领域,经过处理巨量数据处理问题促进其突破性发展。所以,大数据时代带来挑战不仅表现在怎样处理巨量数据从中获取有价值信息,也表现在怎样加强大数据技术研发,抢占时代发展前沿。 1.3. 大数据技术发展 大数据技术描述了一个新一代技术和构架,用于以很经济方法、以高速捕捉、发觉和分析技术,从多种超大规模数据中提取价值,而且未来急剧增加数据迫切需要寻求新处理技术手段。图三所表示: 图三 在“大数据”(Big data)时代,经过互联网、社交网络、物联网,大家能够立即全方面地取得大信息。同时,信息本身存在形式改变和演进,也使得作为信息载体数据以远超大家想象速度快速膨胀。 云时代到来使得数据发明主体由企业逐步转向个体,而个体所产生绝大部分数据为图片、文档、视频等非结构化数据。信息化技术普及使得企业更多办公步骤经过网络得以实现,由此产生数据也以非结构化数据为主。估计到,非结构化数据将达成互联网整个数据量75%以上。用于提取智慧“大数据”,往往是这些非结构化数据。传统数据仓库系统、BI、链路挖掘等应用对数据处理时间要求往往以小时或天为单位。但“大数据”应用突出强调数据处理实时性。在线个性化推荐、股票交易处理、实时路况信息等数据处理时间要求在分钟甚至秒级。 全球技术研究和咨询企业Gartner将“大数据”技术列入对众多企业和组织机构含有战略意义十大技术和趋势之一,而其它领域研究,如云计算、下一代分析、内存计算等也全部和“大数据”研究相辅相成。Gartner在其新兴技术成熟度曲线中将“大数据”技术视为转型技术,这意味着“大数据”技术将在未来3—5年内进入主流。 而 “大数据”多样性决定了数据采集起源复杂性,从智能传感器到社交网络数据,从声音图片到在线交易数据,可能性是无穷无尽。选择正确数据起源并进行交叉分析能够为企业发明最显著利益。伴随数据源爆发式增加,数据多样性成为“大数据”应用亟待处理问题。比如怎样实时地及经过多种数据库管理系统来安全地访问数据,怎样经过优化存放策略,评定目前数据存放技术并改善、加强数据存放能力,最大程度地利用现有存放投资。从某种意义上说,数据将成为企业关键资产。 “大数据”不仅是一场技术变革,更是一场商业模式变革。在“大数据”概念提出之前,尽管互联网为传统企业提供了一个新销售渠道,但总体来看,二者平行发展,鲜有交集。我们能够看到,不管是谷歌经过分析用户个人信息,依据用户偏好提供正确广告,还是Facebook将用户线下社会关系迁移在线上,结构一个半真实实名帝国,但这些商业和消费模式仍不能脱离互联网,传统企业仍无法嫁接到互联网中。同时,传统企业经过传统用户分析工具却极难取得大范围用户真实需求。 企业从大规模制造过渡到大规模定制,必需掌握用户需求特点。在互联网时代,这些需求特征往往是在用户不经意行为中透露出来。经过对信息进行关联、参考、聚类、分类等方法分析,才能得到答案。 “大数据”在互联网和传统企业间建立一个交集。它推进互联网企业融合进传统企业供给链,并在传统企业种下互联网基因。传统企业和互联网企业结合,网民和消费者融合,必将引发消费模式、制造模式、管理模式巨大变革。 大数据正成为IT行业全新制高点,各企业和组织纷纷助推大数据发展,相关技术展现百花齐放局面,并在互联网应用领域崭露头角,具体情况以下图四所表示: 图四 大数据将带来巨大技术和商业机遇,大数据分析挖掘和利用将为企业带来巨大商业价值,而伴随应用数据规模急剧增加,传统计算面临严重挑战,大规模数据处理和行业应用需求日益增加和迫切出现越来越多大规模数据处理应用需求,传统系统难以提供足够存放和计算资源进行处理,云计算技术是最理想处理方案。调查显示:现在,IT专业人员对云计算中很多关键技术最为关心是大规模数据并行处理技术大数据并行处理没有通用和现成处理方案对于应用行业来说,云计算平台软件、虚拟化软件全部不需要自己开发,但行业大规模数据处理应用没有现成和通用软件,需要针对特定应用需求专门开发,包含到很多并行化算法、索引查询优化技术研究、和系统设计实现,这些全部为大数据处理技术发展提供了巨大驱动力, 2. 大数据应用 2.1. 大数据应用叙述 大数据能做什么?我们那么多地方探讨大数据,无非总结下来就做三件事: 第一,对信息了解。你发每一张图片、每一个新闻、每一个广告,这些全部是信息,你对这个信息了解是大数据关键领域。 第二,用户了解,每个人基础特征,你潜在特征,每个用户上网习惯等等,这些全部是对用户了解。 第三,关系。关系才是我们关键,信息和信息之间关系,一条微博和另外一条微博之间关系,一个广告和另外一个广告关系。一条微博和一个视频之间关系,这些在我们肉眼去看时候是相对简单。 比如有条微博说这两天朝鲜绑架我们船事,那条微博也大约是谈这件事。人眼一眼就能看出来。不过用机器怎么能看出来这是一件事,和她们之间因果关 系,这是很有难度。然后就是用户和用户之间关系。哪些人你愿意收听,是你好友,哪些是你感爱好领域,你是一个音乐达人,你是一个吃货,那个用户也 是一个吃货,你愿意收听她。这就是用户和用户之间关系了解。还有用户和信息之间了解,就是你对哪一类型微博感爱好,你对哪一类型信息感爱好,假如 牵扯到商业化,你对哪一类广告或商品感爱好。其实就是用户和信息之间关系,她无非是做这件事。 大数听说那么悬,其实关键是做三件事:对用户了解、对信息了解、对关系了解。假如我们在这三件事之间还要提一件事话,一个叫趋势。 她也是关系一个变种,只是关系稍微远一点,情感之间分析,还有我们政府部门做舆情监控。她能够监控大规模数据,能够分析出人动向。在美国好莱 坞,这两年也是基于FACEBOOK和TIWTTER数据来估计立即上映电影票房。她也是一个趋势分析,只是我们把这个趋势提前来。关键就是这三件事。 2.2. 大数据应用架构 2.3. 大数据行业应用 2.3.1. 医疗行业 1. Seton Healthcare是采取IBM最新沃森技术医疗保健内容分析估计首个用户。该技术许可企业找到大量病人相关临床医疗信息,经过大数据处理,愈加好地分析病人信息。 2. 在加拿大多伦多一家医院,针对早产婴儿,每秒钟有超出3000次数据读取。经过这些数据分析,医院能够提前知道哪些早产儿出现问题而且有针对性地采取方法,避免早产婴儿夭折。 3. 它让更多创业者更方便地开发产品,比如经过社交网络来搜集数据健康类App。可能未来数年后,它们搜集数据能让医生给你诊疗变得更为正确,比方说不是通用成人每日三次一次一片,而是检测到你血液中药剂已经代谢完成会自动提醒你再次服药。 2.3.2. 能源行业 1. 智能电网现在欧洲已经做到了终端,也就是所谓智能电表。在德国,为了激励利用太阳能,会在家庭安装太阳能,除了卖电给你,当你太阳能有多出电时候还能够买回来。经过电网搜集每隔五分钟或十分钟搜集一次数据,搜集来这些数据能够用来估计用户用电习惯等,从而推断出在未来2~3个月时间里,整个电网大约需要多少电。有了这个估计后,就能够向发电或供电企业购置一定数量电。因为电有点像期货一样,假如提前买就会比较廉价,买现货就比较贵。经过这个估计后,能够降低采购成本。 2. 维斯塔斯风力系统,依靠是BigInsights软件和IBM超级计算机,然后对气象数据进行分析,找出安装风力涡轮机和整个风电场最好地点。利用大数据,以往需要数周分析工作,现在仅需要不足1小时便可完成。 2.3.3. 通信行业 1. XO Communications经过使用IBM SPSS估计分析软件,降低了快要二分之一用户流失率。XO现在能够估计用户行为,发觉行为趋势,并找出存在缺点步骤,从而帮助企业立即采取方法,保留用户。另外,IBM新Netezza网络分析加速器,将经过提供单个端到端网络、服务、用户分析视图可扩展平台,帮助通信企业制订更科学、合理决议。 2. 电信业者透过数以千万计用户资料,能分析出多个使用者行为和趋势,卖给需要企业,这是全新资料经济。 3. 中国移动经过大数据分析,对企业运行全业务进行针对性监控、预警、跟踪。系统在第一时间自动捕捉市场改变,再以最快捷方法推送给指定责任人,使她在最短时间内获知市场行情。 4. NTT docomo把手机位置信息和互联网上信息结合起来,为用户提供周围餐饮店信息,靠近末班车时间时,提供末班车信息服务。 2.3.4. 零售业 1. "我们某个用户,是一家领先专业时装零售商,经过当地百货商店、网络及其邮购目录业务为用户提供服务。企业期望向用户提供差异化服务,怎样定位企业差异化,她们经过从 Twitter 和 Facebook 上搜集社交信息,更深入了解化妆品营销模式,随即她们认识到必需保留两类有价值用户:高消费者和高影响者。期望经过接收无偿化妆服务,让用户进行口碑宣传,这是交易数据和交互数据完美结合,为业务挑战提供了处理方案。"Informatica技术帮助这家零售商用社交平台上数据充实了用户主数据,使她业务服务更含有目标性。 2. 零售企业也监控用户店内走动情况和和商品互动。它们将这些数据和交易统计相结合来展开分析,从而在销售哪些商品、怎样摆放货物和何时调整售价上给出意见,这类方法已经帮助某领先零售企业降低了17%存货,同时在保持市场份额前提下,增加了高利润率自有品牌商品百分比。 3. 大数据处理方案 1. 2. 3. 3.1. 大数据技术组成 大数据技术由四种技术组成,它们包含: 3.1.1. 分析技术 分析技术意味着对海量数据进行分析以实时得出答案,因为大数据特殊性,大数据分析技术还处于发展阶段,老技术会日趋完善,新技术会更多出现。大数据分析技术涵盖了以下五个方面 3.1.1.1. 可视化分析 数据可视化不管对于一般用户或是数据分析教授,全部是最基础功效。数据图像化能够让数据自己说话,让用户直观感受到结果。 3.1.1.2. 数据挖掘算法  图像化是将机器语言翻译给人看,而数据挖掘就是机器母语。分割、集群、孤立点分析还有多种多样五花八门算法让我们精炼数据,挖掘价值。这些算法一定要能够应付大数据量,同时还含有很高处理速度。 3.1.1.3. 估计分析能力 数据挖掘能够让分析师对数据承载信息愈加快愈加好地消化了解,进而提升判定正确性,而估计性分析能够让分析师依据图像化分析和数据挖掘结果做出部分前瞻性判定。 3.1.1.4. 语义引擎 非结构化数据多元化给数据分析带来新挑战,我们需要一套工具系统去分析,提炼数据。语义引擎需要设计到有足够人工智能以足以从数据中主动地提取信息。 3.1.1.5. 数据质量和数据管理 数据质量和管理是管理最好实践,透过标准化步骤和机器对数据进行处理能够确保取得一个预设质量分析结果。 我们知道大数据分析技术最初起源于互联网行业。网页存档、用户点击、商品信息、用户关系等数据形成了连续增加海量数据集。这些大数据中蕴藏着大量能够用于增强用户体验、提升服务质量和开发新型应用知识,而怎样高效和正确发觉这些知识就基础决定了各大互联网企业在猛烈竞争环境中位置。首先,以谷歌为首技术型互联网企业提出了MapReduce技术框架,利用廉价PC服务器集群,大规模并发处理批量事务。 利用文件系统存放非结构化数据,加上完善备份和容灾策略,这套经济实惠大数据处理方案和之前昂贵企业小型机集群+商业数据库方案相比,不仅没有丢失性能,而且还赢在了可扩展性上。之前,我们在设计一个数据中心处理方案前期,就要考虑到方案实施后可扩展性。通常方法是预估以后一段时期内业务量和数据量,加入多出计算单元(CPU)和存放,以备不时只需。 这么方法直接造成了前期一次性投资巨大,而且即使这么也仍然无法确保计算需求和存放超出设计量时系统性能。而一旦需要扩容,问题就会接踵而来。首先是商业并行数据库通常需要各节点物理同构,也就是含有近似计算和存放能力。而伴随硬件更新,我们通常加入新硬件全部会强于已经有硬件。这么,旧硬件就成为了系统瓶颈。为了确保系统性能,我们不得不把旧硬件逐步替换掉,经济成本损失巨大。其次,即使是目前最强商业并行数据库,其所能管理数据节点也只是在几十或上百这个数量级,这关键是因为架构上设计问题,所以其可扩展性肯定有限。而MapReduce+GFS框架,不受上述问题困扰。需要扩容了,只需增加个机柜,加入合适计算单元和存放,集群系统会自动分配和调度这些资源,丝毫不影响现有系统运行 3.1.2. 存放数据库 存放数据库(In-Memory Databases)让信息快速流通,大数据分析常常会用到存放数据库来快速处理大量统计数据流通。比方说,它能够对某个全国性连锁店某天销售统计进行分析,得出一些特征进而依据某种规则立即为消费者提供奖励回馈。 但传统关系型数据库严格设计定式、为确保强一致性而放弃性能、可扩展性差等问题在大数据分析中被逐步暴露。随之而来,NoSQL数据存放模型开始风行。NoSQL,也有些人了解为Not Only SQL,并不是一个特定数据存放模型,它是一类非关系型数据库统称。其特点是:没有固定数据表模式、能够分布式和水平扩展。NoSQL并不是单纯反对关系型数据库,而是针对其缺点一个补充和扩展。经典NoSQL数据存放模型有文档存放、键-值存放、图存放、对象数据库、列存放等  NoSQL数据库是一个建立在云平台新型数据处理模式,NoSQL在很多情况下又叫做云数据库。因为其处理数据模式完全是分布于多种低成本服务器和存放磁盘,所以它能够帮助网页和多种交互性应用快速处理过程中海量数据。它为Zynga、AOL、Cisco和其它部分企业提供网页应用支持。正常数据库需要将数据进行归类组织,类似于姓名和帐号这些数据需要进行结构化和标签化。不过NoSQL数据库则完全不关心这些,它能处理多种类型文档。 在处理海量数据同时请求时,它也不会有任何问题。比方说,假如有1000万人同时登录某个Zynga游戏,它会将这些数据分布于全世界服务器并经过它们来进行数据处理,结果和1万人同时在线没什么两样。现今有多个不一样类型NoSQL模式。商业化模式如Couchbase、10genmongoDB和OracleNoSQL;开源无偿模式如CouchDB和Cassandra;还有亚马逊最新推出NoSQL云服务。 3.1.3. 分布式计算技术 分布式计算结合了NoSQL和实时分析技术,假如想要同时处理实时分析和NoSQL数据功效,那么你就需要分布式计算技术。分布式技术结合了一系列技术,能够对海量数据进行实时分析。更关键是,它所使用硬件很廉价,所以让这种技术普及变成可能。SGISunny Sundstrom解释说,经过对那些看起来没什么关联和组织数据进行分析,我们能够取得很多有价值结果。比如说能够分发觉部分新模式或新行为。利用分布式计算技术,银行能够从消费者部分消费行为和模式中识别网上交易欺诈行为。 分布式计算技术让不可能变成可能,分布式计算技术正引领着将不可能变为可能。Skybox Imaging就是一个很好例子。这家企业经过对卫星图片分析得出部分实时结果,比如说某个城市有多少可用停车空间,或某个港口现在有多少船只。它们将这些实时结果卖给需要用户。没有这个技术,要想快速廉价分析这么大量卫星图片数据将是不可能。图五所表示: 图五 分布式计算技术是谷歌关键,也是Yahoo基础,现在分布式计算技术是基于谷歌创建技术,不过却最新由Yahoo所建立。谷歌总共发表了两篇论文,发表叫做MapReduce论文介绍了怎样在多计算机之间进行数据处理;另一篇于发表,关键是相关怎样在多服务器上存放数据。来自于Yahoo工程师Doug Cutting在读了这两篇论文后建立了分布式计算平台,以她儿子玩具大象命名。图六所表示   图六 而Hadoop作为一个重量级分布式处理开源框架已经在大数据处理领域有所作为 3.2. 大数据处理过程 3.2.1. 采集   大数据采集是指利用多个数据库来接收发自用户端(Web、App或传感器形式等)数据,而且用户能够经过这些数据库来进行简单查询和处理工作。比如,电商会使用传统关系型数据库MySQL和Oracle等来存放每一笔事务数据,除此之外,Redis和MongoDB这么NoSQL数据库也常见于数据采集。 在大数据采集过程中,其关键特点和挑战是并发数高,因为同时有可能会有成千上万用户来进行访问和操作,比如火车票售票网站和淘宝,它们并发访问量在峰值时达成上百万,所以需要在采集端布署大量数据库才能支撑。而且怎样在这些数据库之间进行负载均衡和分片确实是需要深入思索和设计。 3.2.2. 导入/预处理 即使采集端本身会有很多数据库,不过假如要对这些海量数据进行有效分析,还是应该将这些来自前端数据导入到一个集中大型分布式数据库,或分布式存放集群,而且能够在导入基础上做部分简单清洗和预处理工作。也有部分用户会在导入时使用来自TwitterStorm来对数据进行流式计算,来满足部分业务实时计算需求。 导入和预处理过程特点和挑战关键是导入数据量大,每秒钟导入量常常会达成百兆,甚至千兆等级。 3.2.3. 统计/分析 统计和分析关键利用分布式数据库,或分布式计算集群来对存放于其内海量数据进行一般分析和分类汇总等,以满足大多数常见分析需求,在这方面,部分实时性需求会用到EMCGreenPlum、OracleExadata,和基于MySQL列式存放Infobright等,而部分批处理,或基于半结构化数据需求能够使用Hadoop。 统计和分析这部分关键特点和挑战是分析包含数据量大,其对系统资源,尤其是I/O会有极大占用。 3.2.4. 挖掘   和前面统计和分析过程不一样是,数据挖掘通常没有什么预先设定好专题,关键是在现有数据上面进行基于多种算法计算,从而起到估计(Predict)效果,从而实现部分高等级数据分析需求。比较经典算法有用于聚类Kmeans、用于统计学习SVM和用于分类NaiveBayes,关键使用工含有HadoopMahout等。该过程特点和挑战关键是用于挖掘算法很复杂,而且计算包含数据量和计算量全部很大,常见数据挖掘算法全部以单线程为主。 整个大数据处理普遍步骤最少应该满足这四个方面步骤,才能算得上是一个比较完整大数据处理 3.3. 大数据处理关键技术-Hadoop 大数据技术涵盖了硬软件多个方面技术,现在多种技术基础全部独立存在于存放、开发、平台架构、数据分析挖掘各个相对独立领域。这一部分关键介绍和分析大数据处理关键技术——Hadoop。 3.3.1. Hadoop组成 大数据不一样于传统类型数据,它可能由TB甚至PB级信息组成,既包含结构化数据,也包含文本、多媒体等非结构化数据。这些数据类型缺乏一致性,使得标准存放技术无法对大数据进行有效存放,而且我们也难以使用传统服务器和SAN方法来有效地存放和处理庞大数据量。这些全部决定了“大数据”需要不一样处理方法,而Hadoop现在正是广泛应用大数据处理技术。Hadoop是一个基于Java分布式密集数据处理和数据分析软件框架。该框架在很大程度上受谷歌在白皮书中叙述MapReduce技术启发。Hadoop关键组件包含图七: 图七 Hadoop Common:通用模块, 支持其它Hadoop模块 Ha d o o p Di s t r i b u t e d Fi l eSystem(HDFS):分布式文件系统,用以提供高流量应用数据访问 Hadoop YARN:支持工作调度和集群资源管理框架 HadoopMapReduce:针对大数据、灵活并行数据处理框架 其它相关模块还有: ZooKeeper:高可靠性分布式协调系统 Oozie:负责MapReduce作业调度 HBase:可扩展分布式数据库,能够将结构性数据存放为大表 Hive:构建在MapRudece之上数据仓库软件包 Pig:架构在Hadoop之上高级数据处理层 在Hadoop框架中,最底层HDFS存放Hadoop集群中全部存放节点上文件。HDFS架构是基于一组特定节点构建(图八), 图八 这些节点包含一个NameNode和大量DataNode。存放在HDFS中文件被分成块,然后将这些块复制到多个计算机中(DataNode)。这和传统RAID架构大不相同。块大小(通常为64MB)和复制块数量在创建文件时由用户机决定。NameNode能够控制全部文件操作。HDFS内部全部通信全部基于标准TCP/IP协议。NameNode在HDFS内部提供元数据服务,负责管理文件系统名称空间和控制外部用户机访问。它决定是否将文件映射到DataNode上复制块上。DataNode通常以机架形式组织,机架经过一个交换机将全部系统连接起来。H a d o o p M a p R e d u c e 是谷歌 MapReduce开源实现。MapReduce技术是一个简练并行计算模型,它在系统层面处理了扩展性、容错性等问题,经过接收用户编写Map函数和Reduce函数,自动地在可伸缩大规模集群上并行实施,从而能够处理和分析大规模数据[6]。Hadoop提供了大量接口和抽象类,从而为Hadoop应用程序开发人员提供很多工具,可用于调试和性能度量等。在H a d o o p 应用实例中,一个代表用户机在单个主系统上开启Ma pRe d u c e应用程序称为JobTracker。类似于NameNode,它是Ha d o o p 集群中唯一负责控制MapReduce应用程序系统。在应用程序提交以后,将提供包含在HDFS中输入和输出目录。JobTr a cke r使用文件块信息(物理量和位置)确定怎样创建其它TaskTracker隶属任务。MapReduce应用程序被复制到每个出现输入文件块节点,将为特定节点上每个文件块创建一个唯一隶属任务。每个TaskTracker将状态和完成信息汇报给JobTracker。图显示一个示例集群中工作分布,图九: 图九 3.3.2. Hadoop优点: Hadoop能够使用户轻松开发和运行处理大数据应用程序。它关键有以下多个优点: 3.2. 3.3. 3.3.1. 3.3.2. 3.3.2.1. 高可靠性。 Hadoop按位存放和处理数据能力值得大家信赖。 3.3.2.2. 高扩展性。 Hadoop是在可用计算机集簇间分配数据并完成计算任务,这些集簇能够方便地扩展到数以千计节点中。 3.3.2.3. 高效性。 Hadoop能够在节点之间动态地移动数据,并确保各个节点动态平衡,所以处理速度很快。 3.3.2.4. 高容错性。 Hadoop能够自动保留数据多个副本,而且能够自动将失败任务重新分配。Hadoop带有用Java语言编写框架,所以运行在Linux生产平台上是很理想。Hadoop上应用程序也能够使用其它语言编写,比如C++。 3.3.3. Hadoop不足 Hadoop作为一个处理大数据软件框架,即使受到众多商业企业青睐,不过其本身技术特点也决定了它不能完全处理大数据问题。在目前Hadoop设计中,全部metadata操作全部要经过集中式NameNode来进行,NameNode有可能是性能瓶颈。目前Hadoop单一NameNode、单一Jobtracker设计严重制约了整个Hadoop可扩展性和可靠性。首先,NameNode和JobTracker是整个系统中显著单点故障源。再次,单一NameNode内存容量有限,使得Hadoop集群节点数量被限制到个左右,能支持文件系统大小被限制在10-50PB,最多能支持文件数量大约为1.5亿左右。实际上,有用户埋怨其集群NameNode重启需要数小时,这大大降低了系统可用性。伴随Hadoop被广泛使用,面对各式各样需求,大家期望Hadoop能提供更多特征,比如完全可读写文件系统、Snapshot、Mirror等等。这些全部是目前版本Hadoop不支持,不过用户又有强烈需求。 3.3.4. 关键商业性“大数据”处理方案 “大数据”被科技企业看作是云计算以后另一个巨大商机,包含IBM、谷歌、亚马逊和微软在内一大批著名企业纷纷掘金这一市场。另外,很多初创企业也开始加入到大数据淘金队伍中。Hadoop是非结构数据库代表,低成本、高扩展性和灵活性等优势使其成为多种面向大数据处理分析商业服务方案首选。Oracle、IBM、Microsoft三大商业数据提供商是Hadoop关键支持者。很多著名企业全部以Hadoop技术为基础提供自己商业性大数据处理方案。这一部分关键介绍以Hadoop为基础经典商业性大数据处理方案。 3.3.2.5. IBM InfoSphere大数据分析平台 I B M于2 0 1 1 年5 月推出InfoSphere大数据分析平台是一款定位为企业级大数据分析产品。该产品包含BigInsight s和Streams,二者互补,Biglnsights基于Hadoop,对大规模静态数据进行分析,它提供多节点分布式计算,能够随时增加节点,提升数据处理能力。St reams采取内存计算方法分析实时数据。它们将包含HadoopMapReduce在内开源技术紧密地和IBM系统集成起来。研究Hadoop这么开源技术人很多,不过IBM这次是真正将其变成了企业级应用,针对不一样人员增加不一样价值。InfoSphereBigInsight s 1.3存放和运算框架采取了开源Ha d o o pMa pRe d u c e,同时针对Ha d o o p 框架进行了改造,采取了IBM特有通用并行文件系统——GPFS。利用GPFS目标是为了避免单点故障,确保可用性。BigInsights中还有两个分析产品——Cognos和SPSS,这两个分析产品在传统功效上加强了文本分析功效,提供了一系列文本分析工具,并使用高级语言进行自定义规则,如文本格式转换等。现在BigInsights提供两种版本,一个是企业版(Enterprise Edition),用于企业级大数据分析处理方案。另一个是基础版(Basic Edition),去掉了企业版中大部分功效,用户能够无偿下载,关键提供给开发人员和合作伙伴试用。St r e ams 最大特点就是内存分析,利用多节点PC服务器内存来处理大批量数据分析请求。St reams特点就是“小快灵”,数据是实时流动,其分析反应速度能够控制在毫秒等级,而BigInsights分析是批处理,反应速度无法同St reams相比。总体来说,二者设计架构不一样,也用于处理不一样大数据分析需求,并能够形成良好互补。InfoSphere平台仅仅是IBM大数据处理方案中一部分。IBM大数据平台包含4大部分:信息整合和治理组件、基于开源Apache Hadoop框架而实现Bi g I n s i g h t s 平台、加速器,和包含可视化和发觉、应用程序开发、系统管理上层应用。经过IBM处理方案能够看出,处理大数据问题不能仅仅依靠Hadoop。 3.3.2.6. Or a c l e Bi g Da t aApplianc Oracle Big Data Appliance正确地说是一款硬件产品,添加了Hadoop装载器、应用适配器和Or acle新NoSQL数据库,关键目标是为了将非结构化数据加载到关系型数据库中去,并对软硬件集成做了部分优化。Oracle BigData机包含开源Apache Hadoop、Oracle NoSQL数据库、Oracle数据集成Hadoop应用适配器、OracleHa d o o p 装载器、Op e n So u r c eDistribution of R、Oracle Linux和Oracle Java HotSpot虚拟机。它能够快速、便捷地和Oracle数据库11g、Oracle Exadata数据库云服务器和Oracle Exa
    展开阅读全文
    提示  咨信网温馨提示:
    1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
    2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
    3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
    4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前可先查看【教您几个在下载文档中可以更好的避免被坑】。
    5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
    6、文档遇到问题,请及时联系平台进行协调解决,联系【微信客服】、【QQ客服】,若有其他问题请点击或扫码反馈【服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【版权申诉】”,意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:0574-28810668;投诉电话:18658249818。

    开通VIP折扣优惠下载文档

    自信AI创作助手
    关于本文
    本文标题:大数据应用解决专业方案.doc
    链接地址:https://www.zixin.com.cn/doc/2947534.html
    精***
         内容提供者      已认证 实名认证

    AI创作

    AI创作 AI创作 AI创作

    AI创作 AI创作 AI创作

    AI创作 AI创作 AI创作

    AI创作 AI创作 AI创作

    AI创作

    自信AI创作助手公众号

    右侧通用广告(自信公众号)
    页脚通栏广告

    Copyright ©2010-2026   All Rights Reserved  宁波自信网络信息技术有限公司 版权所有   |  客服电话:0574-28810668    微信客服:咨信网客服    投诉电话:18658249818   

    违法和不良信息举报邮箱:help@zixin.com.cn    文档合作和网站合作邮箱:fuwu@zixin.com.cn    意见反馈和侵权处理邮箱:1219186828@qq.com   | 证照中心

    12321jubao.png12321网络举报中心 电话:010-12321  jubao.png中国互联网举报中心 电话:12377   gongan.png浙公网安备33021202000488号  icp.png浙ICP备2021020529号-1 浙B2-20240490   


    关注我们 :微信公众号  抖音  微博  LOFTER               

    自信网络  |  ZixinNetwork