云数据采集中心及大数据计算平台建设方案.docx
《云数据采集中心及大数据计算平台建设方案.docx》由会员分享,可在线阅读,更多相关《云数据采集中心及大数据计算平台建设方案.docx(82页珍藏版)》请在咨信网上搜索。
CC 云数据采集中心及大数据计算平台 建设方案 成都中蓝信息技术有限责任公司 目 录 联系 QQ:1280986324,欢迎探讨! 1 引言 5 1.1 项目背景 5 1.2 项目目标 5 1.3 建设原则 6 1.4 参考规范 7 1.5 名词解释 9 2 云数据采集中心 10 2.1 需求概述 10 2.2 总体设计 13 2.3 核心技术及功能 18 2.3.1 分布式文件存储技术 18 2.3.2 分布式并行计算技术 27 2.3.3 分布式数据库技术 31 2.3.4 负载均衡 34 2.3.5 数据采集 39 2.3.6 开放平台 45 2.4 部署方案 48 2.5 实施计划 50 3 大数据计算平台 52 3.1 需求概述 52 3.2 总体设计 52 3.3 应用建设 57 3.3.1 收视率统计 57 3.3.2 智能推荐 60 3.3.3 拍立购 63 3.4 部署方案 69 3.5 实施计划 72 4 性能及成本分析 73 4.1 运营商网络性能分析 73 4.2 服务器网卡性能分析 73 4.2 服务器内存性能分析 73 4.3 服务器硬盘性能分析 74 4.4 服务器 RAID 模式分析 74 4.5D2B 性能分析 75 4.4DMQ 平台性能分析 75 5 存储空间规划表 76 6 机房选型 77 7 安全设计 78 8 风险分析 81 1 引言 1。1 项目背景 根据 CC 智能战略的规划:做强终端、云平台建设、大数据商业模式,CC 正 迈向大数据时代,当前正面向所有智能终端提供优质的服务,同时通过终端传感 器或数据采集服务能够获取海量的数据,并且数据量会以 TB 级剧增。因此 CC 迫切需要建设一套高性能、高安全性、高可靠性,可扩展性的云数据采集中心, 并搭建一个数据中心支撑平台,以满足当今高速增长的数据存储、管理、计算的 需求,同时便于将来拓展和进一步的改造。 目前 CC 数据中心是主要基于 CC 黑电、白电、浏览器等产品终端传感器采 集的海量文本、图片数据以及用户数据,为 CC 后续其他数据分析挖掘项目提供 数据支撑的信息平台。对应方针——终端内容服务、云服务支撑与数据挖掘、个 性化数据价值探索。 建立统一有效的云数据采集中心有利于 CC 大数据的管理,符合 CC 新的发 展战略,CC 黑电和白电产品终端传感器采集的数据有用户行为的文本数据(log)、 台标等图片数据以及自建的影视知识库的结构化数据、电商平台的海量镜像数据。 当 CC 的用户量和采集的数据量与日俱增的时候,数据中心必须能通过添加更多 服务节点来扩展性能和负载能力,保证高可扩展性和高可用性从而满足 CC 业务 发展的需要. 1。2 项目目标 l 搭建分布式存储平台(能够存储海量非结构化数据和结构化数据)、分 布式并行计算平台等等,满足海量数据的采集、存储、计算的需要,平 7 台必须具备高可用性,高扩展性,高可靠性要求。 l 为 CC 后面的产品(收视率统计,智能推荐系统,拍立购,开放平台等等) 的应用和实施打下坚实的基础,为集团 CC 的大数据提供运营支撑。 l 云中心初期建立至少保证可以正常运营 1~2 年,硬件选型,软件开始要 考虑到今后大规模扩容的要求。 l 技术平台要有能力支持数据量最高 1000W 终端数量的数据存储、数据计 算、信息推荐等的能力。 1.3 建设原则 基于本项目的建设要求,本项目将遵循以下建设原则: l 前瞻性和高标准 整个项目要按照企业对大数据应用的需要的高要求和高标准建设,参考 行业标杆应用,建立满足需求,面向未来的目标,整个项目具有一定前 瞻性. l 经济性和实用性 整个项目以现有需求为基础,充分考虑未来发展的需要来确定系统的架 构,既要降低系统的初期投入,又能满足服务对象的需求,同时系统设 计应充分考虑对已有投资的保护,对已建立的数据中心、基础平台、应 用软件应提供完备的整合方案. l 先进性和成熟性 为了确保项目具有较长的生命周期,应充分考虑到管理创新、技术发展 需要,按照先进的建设理念,选择先进的技术架构和成熟技术,满足业 务需求。 l 高性能和安全性 规范地进行系统建设和开发,提供合理且经济有效的应急方案,确保系 统的稳定,向各类服务对象提供可靠的服务.具有安全性,在系统遭到 攻击或崩溃时能快速恢复,确保重要数据的机密性和完整性。 1。4 参考规范 l GB 9361—88 计算站场地安全要求 l GB 50173—93 电子计算机机房设计规范 l GB 2887-89 计算站场地技术条件 l GB 50174—2008 电子信息系统机房设计规范 l GB 50462-2008 电子信息系统机房施工及验收规范 l GB 50311—2007 综合布线工程设计规范 l GB 50312—2007 综合布线系统工程验收规范 l GB 50395—2007 视频安防监控系统设计规范 l GB 50263—2007 气体灭火系统施工及验收规范 l GB 50394—2007 入侵报警系统工程设计规范 l GB/T 20269-2006 信息安全技术-信息系统安全管理要求 l GB/T 20984—2007 信息安全技术—信息安全风险评估规范 l GB/T 22239—2008 信息安全技术—信息系统安全等级保护基本要求 l GB/T 22240-2008 信息安全技术—信息系统安全等级保护定级指南 l GA/T 388—2002B 计算机信息系统安全等级保护管理要求 l GB/T 8567 —1988 计算机软件产品开发文件编制指 l GB/T 11457—1995 软件工程术语 l GB/T 11457—2006 信息技术 软件工程术语 l GB/T 16260.1-2006 软件工程 产品质量 第 1 部分:质量模型 l GB/T 16260.2-2006 软件工程 产品质量 第 2 部分:外部度量 l GB/T 16260。3—2006 软件工程 产品质量 第 3 部分:内部度量 l GB/T 16260。4—2006 软件工程 产品质量 第 4 部分:使用质量的度量 l GB/T 14394—2008 计算机软件可靠性和可维护性管理 l GB/T 17544-1998 信息技术 软件包 质量要求和测试 l GB/T 18221-2000 信息技术 程序设计语言、环境与系统软件借口 独立 于语言的数据类型 l GB/T 18491。1—2001 信息技术 软件测量 功能规模测量 第 1 部分:概念 定义 l GB/T 18492—2001 信息技术 系统及软件完整性级别 l GB/Z 18493—2001 信息技术 软件生存周期过程指南 l GB/T 20157—2006 信息技术 软件维护 l GB/T 20272—2006 信息安全技术 操作系统安全技术要求 l GB/T 20008-2005 信息安全技术 操作系统安全评估准则 l GB/T 20009—2005 信息安全技术 数据库管理系统安全评估准则 l GB/T 20918—2007 信息技术 软件生存周期过程 风险管理 l GB/T 8566-2007 信息技术 软件生存周期过程 l SJ/T 10367—1993 计算机过程控制软件开发规程 l SJ/T 11234-2001 软件过程能力评估模型 l SDO (Service Data Object) for Java Specification V2.1 10 l SCA (Service Component Architecture)Java EE Integration Specification V1.00 l Java 2 Platform, Enterprise Edition l Capability Maturity Model® Integration (CMMISM), Version 1.1 l Extensible Markup Language (XML) 1.0 (Fifth Edition) l Web Services Business Process Execution Language v2。0 1。5 名词解释 l S2DFS:简单存储分布式文件系统(Simple Storage Distributed File System) l D2B:分布式数据库(Distributed Database) l JSS:作业调度服务(Job Scheduler Service) l DCS:数据计算服务(Data Computer Service) l MPS:消息处理服务(Message Process Service) l SDS:流数据处理服务(Stream Data Service) l DMQ:分布式消息队列(Distributed Message Queue) l JGS:作业生成服务(Job Generation Service) l ACS:自动清理服务进程(Automatic Cleaning Services) l HTTP:超文本传输协定(HyperText Transfer Protocol) l SMB:服务器信息块协议(Server Message Block) 2 云数据采集中心 2。1 需求概述 根据 CC 的阶段规划,第一期云数据采集中心的建立至少满足 1 至 2 年内的 数据存储和计算规模,需要满足 200 万台各种智能终端的数据存储和计算规模。 今后整个云数据采集中心的技术平台和架构需要轻松扩展到支持 1000 万台规模 的各种智能终端的数据存储和计算规模。 以下的数据为预估数据(基于小范围的实验数据为依据): 数据类别 文件(记录)大小 1 文件(记录)数量 1 文件(记录)大小 2 文件(记录)数量 2 台标数据(原始数据, 1 天周期) 约 16KB/台/天 (由 200Kb/台/天而得) 约 36 个文件/台/天 约 32GB/200 万台/天 约 7200 万个/200 万台/天 行为数据(原始数据, 1 天周期) 约 60KB/台/天(记录) (由 400Kb/台/天而得,加上了 10KB 的索引记录) 约 50KB/台/天(文件) (由 400Kb/台/天而得) (平均估值) 约 100 条记录/台/天(记录) 约 100 个文件/台/天(文件) (平均估值) 约 120GB/200 万台/天(记录) 约 100GB/200 万台/天(文件) (平均估值) 约 2 亿条/200 万台/天(记录) 约 2 亿个/200 万台/天(文件) (平均估值) 行为数据(原始数据, 永久保存,压缩处理) 约 60KB/台/天(记录) (由 400Kb/台/天而得,加上了 10KB 的索引记录) 约 50KB/台/天(文件) (由 400Kb/台/天而得) (平均估值) 约 100 条记录/台/天 约 100 个文件/台/天 (平均估值) 约 45TB/200 万台/1 年(文件, 加上元数据描述文件) (平均估值) 注:记录的大小约为 10GB 约 35 万条/200 万台/1 年(记录) 约 35 万个/200 万台/1 年(文件) (平均估值) 注:128MB/1 个文件 行为分析/收视率统计 /推荐/电商索引等记 录 约 10KB/1 条(记录) (平均估值) 约 10TB/1 年(记录) (平均估值) 约 10—15 亿条记录/1 年(记录) (平均估值) 11 至少 6 大电商的镜像数 据 约 30KB/1 个(文件) (平均估值) 约 10 亿个/1 年(文件) (平均估值) 约 30TB/1 年(文件) (平均估值) 12 以 1 年为计算周期(数据整合、压缩、清洗后),初步预估: 1、 数据记录:约为 10—15 亿条; 2、 文件个数:约为 10-12 亿个; 3、 记录总大小:约为 10TB;(双份副本:需要约 20TB 存储空间) 4、 文件总大小:约为 75TB;(双份副本:需要约 150TB 存储空间) 5、 总容量大小:约为 85TB;(双份副本:需要约 170TB 存储空间) 为了数据的高可靠性,为每份(文件/记录)建立镜像副本,所以总容量初 步可以规划约为 170TB。 2。2 总体设计 整个云数据采集中心分为四部分:硬件资源层、软件平台层、软件应用层、 智能终端层. 硬件资源层主要指实体硬件设备,包括用来存储数据的光纤阵列柜和存储服 务器,用来作统计、分析以及搜索用的计算服务器,用来部署分布式消息(DMQ) /WEB/APP 软件的 WEB 及消息服务器,用来部署用 PostgreSQL 关系数据库软 件的应用数据库服务器,用来部署作业调度服务进程(JSS)的作业调度服务器. 作为数据通信用的全千兆三层交换机等等。其中光纤阵列柜主要用来存储统计分 析后的粗颗粒度数据。存储服务器用来部署分布式文件系统和分布式数据库,同 时存储非结构化和结构化(台标图片,电商图片等等)和结构化数据(行为数据, 索引数据,log 数据,清理后的细颗粒度数据等等)。计算服务器主要用来完成数 据的清理、统计、搜索等计算任务。为了节省成本和减少通信代价,建议存储服 13 务器和计算服务器合二为一,所以该服务器同时具有计算和存储数据的功能,前 期也可以考虑把作业调度服务进程(JSS)进程部署在存储/计算服务器上。由于 云数据采集中心需要面对多种宽带用户(电信、移动、联通),所以,数据中心 的对外的网络需要直连上电信、移动、联通三家公司的网络,保证以上三家公司 间的通信性能高速和可靠。 软件平台层是云数据采集中心的核心支撑层,也是我们这次方案设计和实施 的主体部分,在核心技术章节会对“分布式文件系统(S2DFS)”、“分布式数 据库(D2B)"、“分布式消息服务(DMQ)"“作业调度服务进程(JSS)、数 据计算服务进程(DCS)"主要部分加以详细的描述。软件平台层的所有服务器 都统一部署的 64 位操作系统 CentOS 6。5(也可以选择 RHEL 6。5 x64);其核心软 件或者进程有:分布式文件系统(S2DFS)、分布式数据库(D2B)、作业调度服 务进程(JSS)、数据计算服务进程(DCS)、作业生成服务进程(JGS)、消息处 理服务进程(MPS)、流数据处理进程(SDS)等等。WEB 及应用服务器软件 Apache&Tomcat,消息队列软件分布式消息(DMQ).还要实现整个云数据采集 中心的资源管理及监控管理系统. 软件应用层是云数据采集中心的功能实现及 UI 表达层,功能实现需要基于 软件平台层的支撑,后期设计和实施的主体。该层的主要功能应用有:数据采集 应用、收视率统计应用、智能推荐应用、拍立购应用,云数据采集中心的资源监 控及调度,通过提供标准 API,在 CC 的云平台上集成第三方 APP 应用,使我们 的云平台成为一个开放的平台,围绕 CC 的各种智能终端或者第三方的终端,都 纳入到平台上来,建立一个完备而丰富的运营生态圈,使 CC 在互联网时代的竞 争中占得先机. 16 智能终端层主要包括 CC 黑电、白电、浏览器等产品设备,这些终端设备通 过公共数据网(电信、联通、移动)和 HTTP 协议,把终端传感器采集的海量文 本、图片数据以及用户行为数据存储在云数据采集中心里,以供后期分析计算用. 第一期是单向交互,主要是终端提供数据,云数据采集中心负责计算,并作推荐. 第二期会引入终端与云数据采集中心的实时双向交互功能。 收视率统计应用 智能推荐应用 拍立购应用 云中心监控 第三方应用 API 存储设备 网络设备 服务器设备 JSS DCS JGS MPS SDS 开放 平台 S2DFS D2B PostgreSQL Nginx Apache Tomcat DMQ CentOS 6.5 x64 云数据采集中心整体架构图 智能终端 智能终端 智能终端 …… 骨 干 网 资源及监控管理 资源及权限管理 WEB及消息服务器 存储/计算服务器 存储/计算服务器 WEB及消息服务器 存储/计算服务器 WEB及消息服务器 …… …… 分布式数据库 服务器 数据公共网 联通/电信/移动 防火墙 分布式数据库 服务器 分布式数据库 服务器 负载均衡服务器 …… 负载均衡服务器 作业调度 服务器(主) …… 作业调度 服务器(备) 云数据采集中心网络结构图 17 2。3 核心技术及功能 2。3。1 分布式文件存储技术 (1) 传统存储技术面临的问题: n 构建成本高:大容量及高网络带宽的高端存储系统架构昂贵. n 文件系统功能和性能差强人意:难以实现全局命名空间的文件共享、 文件系统难以扩展,容易形成瓶颈。 n 扩展性困难:技术存在瓶颈(Scale-up 架构决定的)、扩展成本无法 控制。 n 可用性问题:潜在的单点故障,数据恢复困难,代价高. n 应用目标差异:主要面临运营商、金融行业的 OLTP 应用、很少针 对海量的流数据,或者非结构化数据进行设计和优化。 n 异构设备繁杂:不同时期、不同公司、不同操作系统的异构设备纷 繁复杂,无法整合,资源利用率极低。 分布式文件系统主要为解决以上问题而出现的一种新型大规模数据存储技 术架构。主要为非结构化数据(视频/文件/文档/图像/音频等非结构化数据)提 供海量的存储平台,以集群的方式提供线性横向扩展能力. 分布式文件系统是一种构建于通用 x86 部件之上的高可用、高可靠、高可扩 展的新型分布式文件系统。应用分布式文件系统,用户可以采用廉价可靠的通用 服务器、SATA/SAS 硬盘以及以太网络来构建媲美企业级存储产品的存储系统. (2) 分布式文件系统应对的数据特性和访问特性: n 数据量巨大,数百 TB 或 PB 级,增长迅速; 34 n 类型多样化,包括图像、文本、语音、视频等文件数据; n 按时间有序生成,数据均带有时间标志 ; n 前端数据写入速度很高,每秒钟写入数据可达几万甚至几十万条记 录或者上 GB 量数据 ; n 更新操作极少:追加方式写入,一旦写入,几乎没有数据修改,查 询涉及大量的磁盘读操作,查询处理产生大量的临时结果,不同类 型的数据存在联合分析查询; 分布式文件系统的基本原理是采用集群方式来整合物理上独立的多个存储 资源,以软件方式提供单一的名字空间;采用多副本的方式保证数据的高可用性, 任意单一节点失效均不会导致数据丢失和数据服务的正常运行;同时,分布式文 件系统通过良好设计的系统结构和数据分布策略,可保证系统性能的高可扩展性, 并支持存储容量/性能的在线扩展。 相比较于 DAS(直连存储)、SAN(存储区域网络)和 NAS(网络存储), 应用分布式文件系统构建的网络存储系统更像是一个 NAS,提供类似于传统 NAS 的文件级访问接口(SAN 和 DAS 都是块设备级别的访问接口)。 (3) 分布式文件系统与传统 NAS/SAN 设备的比较: 比较项 高端 NAS FC—SAN 分布式文件系统 性能 一般双端口,性能受机头 影响,难以扩展,出口带 宽是瓶颈 一般双端口,性能受 机头影响,难以扩展, IOPS 较好 性能随节点数的增加成线 性增长 扩展能力 性能及容量无法扩展,或 者有限扩展 能较好扩展,但成本 高昂 性能及容量按需扩展,动 态均衡 可用性 RAID 方式保护, 双机保 护,停机 RAID Rebuid,耗 时 RAID 方式保护,双机 保 护 , 停 机 RAID Rebuid,耗时 基于灵活的多副本机制, 自动检测,自动故障恢复, 无需停机 数据管理 企业级功能需要单独购买 企业级功能需要单独 购买(还需要单独的 内嵌多种企业级应用:快 照、镜像、回收站 文件系统,100 多万一 套) 成本 专有的硬件平台,软件拥 有成本高,扩展成本高 专有的硬件平台,软 件拥有成本高,扩展 成本高 开发通用的硬件平台,一 体化的软件,成本低,扩 展成本低 可维护性 专门的技术支持服务,需 要培训 结构异常复杂,需要 大量培训,厂商服务 昂贵 内嵌多种自动化的故障检 测和恢复功能,国内开发, 技术支持快速 用户使用分布式文件系统如同使用本地文件系统。所不同的是,传统 NAS 通常以单一节点的方式实现,容量和性能的扩展能力有限,易于成为性能瓶颈和 单一故障点。而分布式文件系统则有多个节点集合地提供服务,由于其结构特征, 分布式文件系统的性能和容量均可在线线性扩展,并且系统内不存在单一故障点. 对比参看下面两幅示意图: 传统存储架构图 分布式文件系统架构图 分布式文件系统的设计应用特别适合海量非结构化数据存储,大量客户端并 发的 I/O 密集型应用。目前,分布式文件系统已经被应用于政府、医疗影像、 勘查数据计算、视频服务以及动画制作等领域。这些领域的数据访问特征均为: 数据量巨大,I/O 吞吐率高,数据增长迅速以及数据可用性要求高。经过长时间 的实际生产环境使用,分布式文件系统已被证明是该类型应用的有效解决方案. 分布式文件系统 Server端 设备卷 设备卷 设备卷 设备卷 设备卷 分布式文件系统逻辑卷 分布式文件系统客户端 NFS/Samba 卷管理 I/O调度 分布式文件系统客户端 卷管理 I/O调度 分布式文件系统客户端 分布式文件系统网关 分布式文件系统 Client端 分布式文件系统架构图 分布式文件系统的服务器端程序运行于 Linux x64 系统之上,支持多种 Linux 64 位发行版,包括 Redhat、CentOS 等.分布式文件系统客户端则支持 Linux 和 Windows,同时分布式文件系统还可以通过第三方软件输出 CIFS 和 NFS 接口, 可以兼容大多数应用. (4) 分布式文件系统的核心技术及特征: n 扩展性和高性能:分布式文件系统利用双重特性来提供几 TB 至数 PB 的高扩展存储解决方案。Scale-Out 架构允许通过简单地增加资源 来提高存储容量和性能,磁盘、计算和 I/O 资源都可以独立增加, 支持 10GbE 和 InfiniBand 等高速网络互联。分布式文件系统弹性哈 希(Elastic Hash)解除了分布式文件系统对元数据服务器的需求, 消除了单点故障和性能瓶颈,真正实现了并行化数据访问. n 高可用性:分布式文件系统可以对文件进行自动复制,如镜像或多 次复制,从而确保数据总是可以访问,甚至是在硬件故障的情况下 也能正常访问。自我修复功能能够把数据恢复到正确的状态,而且 修复是以增量的方式在后台执行,几乎不会产生性能负载。分布式 文件系统没有设计自己的私有数据文件格式,而是采用操作系统中 主流标准的磁盘文件系统(如 XFS/EXT4/ZFS)来存储文件,因此 数据可以使用各种标准工具进行复制和访问。 n 全局统一命名空间:全局统一命名空间将磁盘和内存资源聚集成一 个单一的虚拟存储池,对上层用户和应用屏蔽了底层的物理硬件. 存储资源可以根据需要在虚拟存储池中进行弹性扩展,比如扩容或 收缩.当存储虚拟机映像时,存储的虚拟映像文件没有数量限制, 成千虚拟机均通过单一挂载点进行数据共享。虚拟机 I/O 可在命名 空间内的所有服务器上自动进行负载均衡,消除了 SAN 环境中经常 发生的访问热点和性能瓶颈问题。 n 弹性哈希算法:分布式文件系统采用弹性哈希算法在存储池中定位 数据,而不是采用集中式或分布式元数据服务器索引.在其他的 Scale-Out 存储系统中,元数据服务器通常会导致 I/O 性能瓶颈和单 点故障问题。分布式文件系统中,所有在 Scale—Out 存储配置中的存 储系统都可以智能地定位任意数据分片,不需要查看索引或者向其 他服务器查询。这种设计机制完全并行化了数据访问,实现了真正 的线性性能扩展。 n 弹性卷管理:数据储存在逻辑卷中,逻辑卷可以从虚拟化的物理存 储池进行独立逻辑划分而得到。存储服务器可以在线进行增加和移 除,不会导致应用中断。逻辑卷可以在所有配置服务器中增长和缩 减,可以在不同服务器迁移进行容量均衡,或者增加和移除系统, 这些操作都可在线进行。文件系统配置更改也可以实时在线进行并 应用,从而可以适应工作负载条件变化或在线性能调优。 n 完全软件实现(Software Only):分布式文件系统认为存储是软件问 题,不能够把用户局限于使用特定的供应商或硬件配置来解决。分 布式文件系统采用开放式设计,广泛支持工业标准的存储、网络和 计算机设备,而非与定制化的专用硬件设备捆绑。对于商业客户, 分布式文件系统可以以虚拟装置的形式交付,也可以与虚拟机容器 打包,或者是公有云中部署的映像。开源社区中,分布式文件系统 被大量部署在基于廉价闲置硬件的各种操作系统上,构成集中统一 的虚拟存储资源池。简而言之,分布式文件系统是开放的全软件实 现,完全独立于硬件和操作系统。 n 完整的存储操作系统栈(Complete Storage Operating System Stack:分 布式文件系统不仅提供了一个分布式文件系统,而且还提供了许多 其他重要的分布式功能,比如分布式内存管理、I/O 调度、软 RAID 和自我修复等。分布式文件系统汲取了微内核架构的经验教训,借 鉴了 GNU/Hurd 操作系统的设计思想,在用户空间实现了完整的存 储操作系统栈. n 用户空间实现(User Space):与传统的文件系统不同,分布式文件系 统在用户空间实现,这使得其安装和升级特别简便。另外,这也极 大降低了普通用户基于源码修改分布式文件系统的门槛,仅仅需要 通用的 C 程序设计技能,而不需要特别的内核编程经验. n 模块化堆栈式架构(Modular Stackable Architecture):分布式文件系统 采用模块化、堆栈式的架构,可通过灵活的配置支持高度定制化的 应用环境,比如大文件存储、海量小文件存储、分布式文件系统、 多传输协议应用等。每个功能以模块形式实现,然后以积木方式进 行简单的组合,即可实现复杂的功能.比如,Replicate 模块可实现 RAID1,Stripe 模块可实现 RAID0,通过两者的组合可实现 RAID10 和 RAID01,同时获得高性能和高可靠性。 n 原始数据格式存储(Data Stored in Native Formats):分布式文件系统 以原始数据格式(如 EXT3、EXT4、XFS、ZFS)储存数据,并实现 多种数据自动修复机制。因此,系统极具弹性,即使离线情形下文 件也可以通过其他标准工具进行访问。如果用户需要从分布式文件 系统中迁移数据,不需要作任何修改仍然可以完全使用这些数据. n 无元数据服务设计(No Metadata with the Elastic Hash Algorithm):对 Scale-Out 存储系统而言,最大的挑战之一就是记录数据逻辑与物理 位置的映像关系,即数据元数据,可能还包括诸如属性和访问权限 等信息。传统分布式存储系统使用集中式或分布式元数据服务来维 护元数据,集中式元数据服务会导致单点故障和性能瓶颈问题,而 分布式元数据服务存在性能负载和元数据同步一致性问题。特别是 对于海量小文件的应用,元数据问题是个非常大的挑战.分布式文 件系统独特地采用无元数据服务的设计,取而代之使用算法来定位 文件,元数据和数据没有分离而是一起存储。集群中的所有存储系 统服务器都可以智能地对文件数据分片进行定位,仅仅根据文件名 和路径并运用算法即可,而不需要查询索引或者其他服务器。这使 得数据访问完全并行化,从而实现真正的线性性能扩展。无元数据 服务器极大提高了分布式文件系统的性能、可靠性和稳定性。 n 基于标准协议:分布式文件系统存储服务支持 NFS, CIFS, HTTP, FTP 以及分布式文件系统原生协议,完全与 POSIX 标准兼容。 (5) 分布式文件系统技术及性能指标: n 支持设备数量:最大百万台以上 n 支持存储容量:最大 1024PB 以上 n 客户端的数量:最大支持上亿并发 n 网络支持:以太网:1Gbps、10Gbps/INFINIBAND:10Gbps、40Gbps n 文件副本数量:任意(缺省 1 份) n 协议: NFS/CIFS/HTTP/FTP/WEB DAV,及原生协议,兼容 POSIX 标准 n 支持文件数量:最大上亿个文件 n 最大单个文件:16TB (6) S2DFS 与 HDFS 的比较 对比项 HDFS(GFS) S2DFS 架构类型 带元数据库中心架构 (瓶颈及故障易发生点) 全分布式去中心架构 存在方式 分布式文件系统软件,基于 x86 平台 使用方式 CLI/REST API NATIVE CLIENT/CIFS/NFS 标准 协议 (应用代码与平台无关性,便于移 植和维护) 系统可用性 低 高 数据可用性 复制 类 RAID 数据定位方式 INode Hash 同步方式 异步 同步 负载均衡 自动 自动 支持网络 千兆以太网 千兆/万兆以太网,IB 网 网络写:读(万兆/单流) 约 100MB/s:160MB/s 约 800MB/s:1000MB/s 读(1*20GB)(万兆) 约 125s 约 25s 写(1*20GB)(万兆) 约 200s 约 20s 读/写(千兆) 差距不大 2。3。2 分布式并行计算技术 (1) 概述 并行计算技术真正将传统运算转化为并行运算,从而更加充分的利用广泛部 署的普通计算资源实现大规模的运算和应用的目的,在此基础上为第三方开发者 提供通用平台,为客户提供并行服务。这里主要为门户网站提供作业调度平台, 实现日志分析,性能优化,全文检索,视频处理,用为分析等等的支撑平台。 用户通过统一计算平台把任务分派给系统内的多个节点,调度节点资源执行 任务,发挥多核并行处理优势,提升运算效率,充分运用网络内的计算资源达到 解决大规模计算问题的目的。 (2) 分布式并行计算架构图 分布式并行计算架构图 (3) 作业调度及计算过程 (4) 分布式并行计算技术特点 n 池化资源管理 利用池化技术,任何一台联在互联网上的普通 PC 机从硬件到软件, 可通过池化技术加入服务器池中,等待任务分配,系统能充分利用现 有服务器资源,将所有运算子任务分配给节点服务器,有效避免计 算资源闲置现象的发生. n 无中心系统架构 在平台管理下的单节点能力一致,使节点在部署上和使用上具备无 差别性,任一节点功能可由其他节点替代或强化,可以最大程度确 保平台资源使用的灵活性以及在灾备环境下的可靠性系统架构。 n 通道式工作机制 平台为用户提供一个并行任务处理通道,处理过程对用户来说完全 透明,由平台自动进行负载均衡、资源匹配、任务传输等,使用户 专注于自身任务管理,将执行过程交由平台完成. 2。3.3 分布式数据库技术 D2B 是一个 具有高性能的 高性能,可扩展,无模式,面向文档 (document—oriented)的数据库,其内存储的是一种 JSON—like 结构化数据的分布式 数据库软件,尤其具有高扩展性和高可靠性,支持大表水平折分,以及分区镜像. 提供内存缓存数据,所以数据存取速度非常快,主要是由于它处理写入的方式: 它们存储在内存中,然后通过后台线程写入磁盘。 该软件支持的数据结构非常松散,是类似 json 的 bjson 格式,因此可以存储 比较复杂的数据类型。D2B 另外的最大的特点是他支持的查询语言非常强大,其 语法有点类似于面向对象的查询语言,几乎可以实现类似关系数据库单表查询的 绝大部分功能,而且还支持对数据建立索引。它的特点是高性能、易部署、易使 用,存储数据非常方便. 主要功能特性: l 面向集合存储,易存储对象类型的数据 “面向集合”(Collenction—Oriented),意思是数据被分组存储在数据集 中,被称为一个集合(Collenction).每个 集合在数据库中都有一个唯一 的标识名,并且可以包含无限数目的文档。集合的概念类似关系型数据 库(RDBMS)里的表(table),不同的是它不需要定义任何模式(schema)。 l 模式自由 模式自由(schema—free),意味着对于存储在 D2B 数据库中的文件,我们 不需要知道它的任何结构定义。如果需要的话,你完全可以把不同结构 的文件存储在同一个数据库里。 l 自动分片以支持云级别的伸缩性:自动分片功能支持水平的数据库集群, 可动态添加额外的机器. l 支持动态查询 l 支持完全索引,包含内部对象。 l 自动处理碎片,以支持云计算层次的扩展性. l 可通过网络访问 l 可用于 Windows®、Mac OS X、Linux® 和 Solaris 的官方二进制版本. l 可用于 C、C#、C++、Haskell、Java™、JavaScript、Perl、PHP、Python、 Ruby 和 Scala 的官方驱动程序,以及广泛可用于其他语言的社区支持 的驱动程序. l Ad—hoc JavaScript 查询让您能够使用基于任何文档属性的任何条件来查 找数据.这些查询对应于 SQL 查询的功能,使 SQL 开发人员能够很 直观地编写 D2B 查询。 l 支持查询中的正则表达式。 l D2B 查询结果存储在提供过滤、聚合和排序等一系列功能的游标中,包 括 limit()、skip()、 sort()、count()、 distinct() 和 group()等等高级特性. l 高级聚合的 map/reduce 实现。 l 类似于 RDBMS 的属性索引支持,可以直接在文档的选定属性上创建索 引。 l 使用提示、解释计划和分析的查询优化特性。 l 类似于 MySQL 的主/从复制,支持复制和故障恢复。 l 基于集合的对象存储,在需要规范化数据时允许参考查询。 l 通过自动分片功能水平扩展。 l 高性能无争用并发机制的即时更新。 D2B 服务端可运行在 Linux、Windows 或 OS X 平台,支持 32 位和 64 位应 用。推荐运行在 64 位平台,因为 D2B 在 32 位模式运行时支持的最大文件尺寸 为 2G- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 采集 中心 计算 平台 建设 方案
咨信网温馨提示:
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【精***】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【精***】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【精***】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【精***】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。
关于本文