HBase简介.pptx
《HBase简介.pptx》由会员分享,可在线阅读,更多相关《HBase简介.pptx(46页珍藏版)》请在咨信网上搜索。
1、HBase 简介目录1.HBase简介简介2.Hbase数据模型数据模型3.Hbase体系结构体系结构4.HBase提供的接口提供的接口5.HBase优化优化6.HBase用途用途HBase简介Hadoop生态系统成员名成员名用途用途Pig基于hadoo的数据流系统,Pig是SQL-like语言,是在MapReduce上构建的一种高级查询语言,把一些运算编译进MapReduce模型的Map和Reduce中,并且用户可以定义自己的功能hive基于hadoop的数据仓库,由facebook开源,最初用于解决海量结构化日志数据统计问题,hive定义了一种类似sql的查询语言(HQL),将sql转化为
2、MapReduce任务在hadoop上执行,通常用于离线分析sqoop是sql-to-hadoop的缩写,主要用于传统数据库和hadoop之间的数据传输。数据的导入和导出本质上市MR程序,充分利用MR的并行化和容错性AvroAvro是一个RPC项目,有点类似Google的protobuf和Facebook的thrift。avro用来做以后hadoop的RPC,使hadoop的RPC更快、数据结构更紧凑。HBase基于基于HDFS是一个开源的,基于列存储模型的分布式数据库。是一个开源的,基于列存储模型的分布式数据库。HDFS分布式文件系统MapReduce实现了MapReduce编程框架ZooK
3、eeperZookeeper是Google的Chubby一个开源的实现。它是一个针对大型分布式系统的可靠协调系统,利用zookeeper可以避免单点故障。它提供的功能包括:配置维护、名字服务、分布式同步、组服务等。ZooKeeper的目标就是封装好复杂易出错的关键服务,将简单易用的接口和性能高效、功能稳定的系统提供给用户。HBase 简介HBase是一个分布式的、多版本的、面向列的开源数据库是一个分布式的、多版本的、面向列的开源数据库利用Hadoop HDFS作为其底层存储系统,提供高可靠性、高吞吐、列存储、可伸缩、实时读写的数据库系统。利用Hadoop MapReduce来处理HBase中的
4、海量数据利用Zookeeper作为协同服务。HBase 简介HBase中表的特点中表的特点大:一个表可以有上亿行,上百万列(列多时,插入变慢)面向列:面向列(族)的存储和权限控制,列(族)独立检索。稀疏:对于为空(null)的列,并不占用存储空间,因此,表可以设计的非常稀疏。每个cell中的数据可以有多个版本,默认情况下版本号自动分配,是单元格插入时的时间戳;HBase中的数据都是字符串,没有类型;HBASE 特点强一致性同一行数据的读写只在同一台Region Server上进行水平伸缩Region的自动分裂以及Master的balance;只用增加Datanode机器即可增加容量;只用增加R
5、egion Server机器即可增加读写吞吐量HBASE 特点行事务同一行的列的写入是原子的;按列存储+三维有序SortedMap(RowKey,List(SortedMap(Column,List(Value,Timestamp)rowKey(ASC)+columnLabel(ASC)+Version(DESC)-valueHBASE 特点支持有限查询方式和一级索引仅支持单行事务仅支持三种查询方式(single row key、range row key、scan all rows of table)【可通过hive等实现多表关联查询】仅基于row key的索引高性能随机读写和Hadoop无
6、缝集成Hadoop分析后的结果可直接写入HBase;存放在HBase的数据可直接通过Hadoop来进行分析。HBase与RDBMS对比HBaseRDBMS数据类型只有字符串丰富的数据类型数据操作简单的增删改查各种各样的函数,表连接存储模式基于列存储基于表格结构和行存储数据保护更新后旧版本仍然会保留替换可伸缩性轻易的进行增加节点,可扩展性高需要中间层目录1.HBase简介简介2.HBase数据模型数据模型3.Hbase体系结构体系结构4.HBase提供的接口提供的接口5.HBase优化优化6.HBase用途用途逻辑视图、物理视图12HBase以表的形式存储数据。表由行和列组成。列划分为若干个列族
7、(row family)Row Key Time Stamp Column-family1(realtime)Column-family2(info)Column-family3CF ”price CF”url“CF”domain“taobao1233456t1111“ Key Time Stamp Column“realtime taobao123456t1 Price:111t2 Price:221t3 Price:100逻辑视图物理视图Row Key Time Stamp Column”info t1”url:.“domain:t2”url:“domain:.HBase每个列族存储为一个
8、Store存储结构RowlengthrowKey的字符长度RowrowKey的值columnFamilyLengthcolumnFamily的长度columnFamilycolumnFamily的值columnqualifiercolumntimestamp时间戳(版本)KeytypeKey的类型(Put,Delete,DeleteColumn,DeleteFamily)Hbase是基于列存储的数据库,可简单认为每个ColumnFamily对应一张存储表,表格的RowKey、Timestamp和column确定了每条记录的唯一索引。在物理层面上,表格的数据是通过StoreFile来存储的,每个
9、StoreFile相当于一个可序列化的Map,Map的key和value都是可解释型字符数组,如key的字符数组主要由以下信息组成(value于此类似):而多个map整合到一起,便形成一张松散的、可分布式的、多维的、可序列话的BigTable HBase 数据表中一些关键概念Row key键Column Family列族Cell qualifier列族修饰符(列)Timestamp时间戳Region区域Cell单元格键 Row key表中行的键是字节数组(最大长度是 64KB)任何字符串都可以作为键;表中的行根据行的键值进行排序,数据按照Row key的字典序(byte order)排序存储;
10、所有对表的访问都要通过键通过单个row key访问通过row key的range全表扫描列族 Column FamilyHBase表中的每个列都归属于某个列族,列族必须作为表模式(schema)定义的一部分预先定义。如 create info,realtime;列名以列族作为前缀,每个“列族”都可以有多个列成员(column);如info:name,realtime:price,新的列族成员可以随后按需、动态加入;权限控制、存储以及调优都是在列族层面进行的;同一列族成员最好有相同的访问模式和大小特征;HBase把同一列族里面的数据存储在同一目录下,由几个文件保存。单元格修饰符 Cell qua
11、lifier通过列族:单元格修饰符,可以具体到某个列;可以把单元格修饰符认为是实际的列名;在列族存在,客户端随时可以把列添加到列族;HTable table=new HTable(conf,tableName);Get get=new Get(rowKey.getBytes();Result rs=table.get(get);for(KeyValue kv:rs.raw()System.out.print(new String(kv.getRow()+);System.out.print(new String(kv.getFamily()+:);System.out.print(new St
12、ring(kv.getQualifier()+);System.out.print(kv.getTimestamp()+);System.out.println(new String(kv.getValue();时间戳Timestamp在HBase每个cell存储单元对同一份数据有多个版本,根据唯一的时间戳来区分每个版本之间的差异,不同版本的数据按照时间倒序排序,最新的数据版本排在最前面。时间戳的类型是 64位整型。时间戳可以由HBase(在数据写入时自动)赋值,此时时间戳是精确到毫秒的当前系统时间。时间戳也可以由客户显式赋值,如果应用程序要避免数据版本冲突,就必须自己生成具有唯一性的时间戳。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- HBase 简介
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【a199****6536】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【a199****6536】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。