基于Spark的大数据分析系统设计和实现.pdf
《基于Spark的大数据分析系统设计和实现.pdf》由会员分享,可在线阅读,更多相关《基于Spark的大数据分析系统设计和实现.pdf(3页珍藏版)》请在咨信网上搜索。
1、信息记录材料 年 月 第 卷第 期基于 的大数据分析系统设计和实现边 宁(淄博市政务服务中心 山东 淄博)【摘摘要要】为解决传统的数据分析方法存在低效率、弱扩展性及维护成本高等问题结合大数据技术设计实现了一种基于 的大数据分析系统以此满足用户对数据分析的需求 该系统的设计主要由分层架构组成分为应用层、服务层、存储层以及基础层等并在满足用户对数据的可靠、高效的分析需求时还有效降低了系统的后期维护成本提高了系统的可扩展性 经测试结果证明该系统的可行性【关关键键词词】大大数数据据技技术术 大大数数据据分分析析系系统统 设设计计研研究究 【中中图图分分类类号号】【文文献献标标识识码码】【文文章章编编号
2、号】()作者简介:边宁()男山东淄博硕士高级工程师研究方向:大数据分析、大数据计算引擎、集群计算 引言随着科学技术的不断发展网络中产生了海量的数据 面对海量数据流的影响如何实现对网络当中存在的大数据实施高效地分析已经成为了当前学者的研究特点而大数据的核心问题就是对大数据的分析处理 传统的大数据处理及分析方法已经无法有效满足当前阶段对大数据的高效、实时存取和处理等方面的需求 丁鹏程对用户行为数据分析包含数据采集、数据存储、利用等多个阶段实施分析但是该方法存在用户行为数据丢失的漏洞 林星星主要针对 在商品个性化推荐这种特殊场景中的应用展开研究借助混合推荐算法虽然解决了商品个性化推荐过程中存在的数据
3、稀疏性及实时性等问题但数据信息的处理效果相对较差会导致系统的性能下降 上述方法均不能精准地实现大数据分析因此为解决上述问题提出了一种基于 的大数据分析系统设计方案 该系统的框架选择适用性较强的 计算框架为主能够支持多种类型语言的编程此外还可以实现对大数据的交互式、批量处理、计算分析 基于 的大数据分析系统以实现对大数据的实时分析 技术概述 作为 所开发的一款大数据计算框架它和 两者之间既有相似部分也有不同 不过 和 两者都具有分布式优点能够实现对大数据的快速集群计算并且 在 集群上运行还可以实现对 当中的数据资源进行实时访问 支持多种不同文件格式对数据展开分析和处理其数据结构主要以(弹性分布式
4、数据集)为主且该数据集在完成创建之后无法修改 因此在大数据分析处理中 能够适用于机器学习与数据挖掘 此外 具有良好的工作负载性能不仅可以实现交互式查询还拥有内存分布式数据集性能可以对迭代工作负载进行相应的优化 因此在不同的应用场景当中 系统的各个组件具有不同的作用具体见表 表 的应用场景业务场景 生态组件时间级别批量的复杂数据处理小时级针对 历 史 数 据 的 查 询处理 分钟级或者秒级针对 实 时 数 据 的 实 时处理 秒级或者毫秒针对图像数据的处理对历史数据的有用信息挖掘 基于 的大数据分析系统设计及实现 系统设计原则首先从大数据分析系统的设计原则方面进行分析考虑到后期数据量的增加及随着
5、业务需求的提升所使用到的组件也会增加集群得到扩展进行基于 的大数据分析系统框架设计 其次结合该系统的功能需求以及需要考虑的后期项目自身的扩展性针对大数据分析系统的设计应当严格遵循依赖倒置原则、开放封闭原则、接口隔离原则、单一职责原则、里式替换原则及迪米特法则等设计原则 其中从依赖倒置原则来看设计分析系统的上层模块并不会依赖底层的模块 从开放封闭原则来看在进行大数据分析系统设计时若没有严格遵循此原则时就会使得项目的后期受需求变化的影响可能会在原本的代码上进行修改以及对部分代码进行重新编译、测试以及部署从而会耗费很大影响系统的扩展 集群搭建及环境配置首先 的运行需要 的支持在进行 安装之前需要先完
6、成 环境的安装 然后通过从官方网站上下载 源码利用编译器进行编译 其次利用 节点的主机名字通过 文件配置写入到每一台的虚拟机设备中的 文件当中当写入作业完成之后还需要对 安装目录当中的文件节点进行修改 并且还需要集群上的所有节点文件和 文件当中的内容相一致 在完成所有配置作业之后可以选择利信息记录材料 年 月 第 卷第 期用 模式开启 集群 集群开启之后可以通过浏览器进行浏览并对集群的启动情况进行查询与测试 此外由于 是由 编写而成因此针对系统的 应用程序的开发语言选择应当为 这样一来在调试时可以直接在开放环境当中调试而不需要将作业上传到集群上进行调试 大数据分析系统设计 系统总体框架设计 计
7、算引擎作为一种拥有通用性优点能够实现对大规模海量数据的快速计算与处理 结合官方所给出的数据信息来看 和 两者之间进行对比 的计算引擎运算速度快于后者 倍 同时 自身的运行模式拥有本地运行模式、独立集群运行等特征 因此采用 为框架构建大数据分析系统其系统框架主要采用分层设计分别为数据应用层、服务层、数据计算与存储层及基础层 个层次 基于 的大数据分析系统框架示意图如图 所示图 基于 的大数据分析系统框架示意图从数据基础层方面来看该层次设计主要包含了系统的底层软件和硬件 其中底层软件主要包含了安装配置在服务器上的操作系统及 基础环境等软件而系统硬件部分主要包含了服务器和网络运营商 从服务层方面来看
8、该层的设计主要提供了工作调度功能、系统管理功能、服务接口功能以及工作管理功能等 其中服务接口功能主要为服务层向 提供 接口从而让系统前端能够获得管理与工作调度的能力 并且该层直接会接入到 当中 从数据计算与存储层方面来看引入了 通过分布式存储系统所采集的数据信息利用虚拟技术可以实现对数据信息的统一管理 同时该层的设计主要包含了、组件及分布式集群环境 等 其中 的应用为大数据分析系统提供了较高的容错分布式文件系统 的应用为分布式资源管理器的分布式集群提供了统一的工作调度以及资源管理 此外由于 在应用过程中采用了 模式实施了部署 因此其计算工作同样交由 进行统一的调度与管理且为了解决 存在的高计算
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 Spark 数据 分析 系统 设计 实现
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。