hadoop-技术基础学习资料PPT课件.ppt
《hadoop-技术基础学习资料PPT课件.ppt》由会员分享,可在线阅读,更多相关《hadoop-技术基础学习资料PPT课件.ppt(20页珍藏版)》请在咨信网上搜索。
HADOOPHadoop概述一HadoopHadoop生生态态圈圈HadoopHadoop构架构架主要主要组组成部分及介成部分及介绍绍1 12 23 3目目录录1 1Hadoop是一个实现了MapReduce计算模型的开源分布式并行编程框架,程序员可以借助Hadoop编写程序,将所编写的程序运行于计算机机群上,从而实现对海量数据的处理。Hadoop还提供一个分布式文件系统(HDFS)及分布式数据库(HBase)用来将数据存储或部署到各个计算节点上。所以,可以大致认为:Hadoop=HDFS(文件系统,数据存储技术相关)+HBase(数据库)+MapReduce(数据处理)HadoopHadoop构架分析构架分析构架分析构架分析2 2Hadoop主要由HDFS、MapReduce、Hive和HBase等组成。HadoopHadoop组组成部分成部分成部分成部分3 31、HadoopHDFS是GoogleGFS存储系统的开源实现,主要应用场景是作为并行计算环境(MapReduce)的基础组件,同时也是BigTable(如HBase、HyperTable)的底层分布式文件系统。HDFS采用master/slave架构。一个HDFS集群是有由一个Namenode和一定数目的Datanode组成。Namenode是一个中心服务器,负责管理文件系统的namespace和客户端对文件的访问。Datanode在集群中一般是一个节点一个,负责管理节点上它们附带的存储。在内部,一个文件其实分成一个或多个block,这些block存储在Datanode集合里。Hadoop主要由HDFS、MapReduce、Hive和HBase等组成。HadoopHadoop组组成部分成部分成部分成部分3 32、HadoopMapReduce是一个使用简易的软件框架,基于它写出来的应用程序能够运行在由上千个商用机器组成的大型集群上,并以一种可靠容错的方式并行处理上TB级别的数据集。一个MapReduce作业(job)通常会把输入的数据集切分为若干独立的数据块,由Map任务(task)以完全并行的方式处理它们。框架会对Map的输出先进行排序,然后把结果输入给Reduce任务。通常作业的输入和输出都会被存储在文件系统中。整个框架负责任务的调度和监控,以及重新执行已经失败的任务。Hadoop主要由HDFS、MapReduce、Hive和HBase等组成。HadoopHadoop组组成部分成部分成部分成部分3 33、Hive是基于Hadoop的一个数据仓库工具,处理能力强而且成本低廉。主要特点:存储方式是将结构化的数据文件映射为一张数据库表。提供类SQL语言,实现完整的SQL查询功能。可以将SQL语句转换为MapReduce任务运行,十分适合数据仓库的统计分析。Hadoop主要由HDFS、MapReduce、Hive和HBase等组成。HadoopHadoop组组成部分成部分成部分成部分3 34、HBase是一个分布式的、面向列的开源数据库,它不同于一般的关系数据库,是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。HBase使用和 BigTable非常相同的数据模型。用户存储数据行在一个表里。一个数据行拥有一个可选择的键和任意数量的列,一个或多个列组成一个 ColumnFamily,一个Fmaily下的列位于一个HFile中,易于缓存数据。表是疏松的存储的,因此用户可以给行定义各种不同的列。在 HBase中数据按主键排序,同时表按主键划分为多个Hregion。Hadoop使用二登登陆陆HadoopHadoop集群集群HadoopHadoop建表建表数据数据查询查询及及导导出出HadoopHadoop的的hdfshdfs命令命令1 12 23 34 4目目录录2 2HOSTNAME133.128.88.200PORT22USERNAMEhadoop1 1登登登登录录hadoophadoop集群集群集群集群或者通过其他机器跳转到133.128.88.200下ssh hadoophadoop-m01或ssh hadoop133.128.88.200键入回车,输入密码。通过hive命令登陆数据库showdatabases;显示当前的所有数据库(同oracle数据库的用户);1 1usedw;切换数据库;登登登登录录hadoophadoop集群集群集群集群showfunctions;显示所有的函数;showtables;查看当前数据库下所有的表;showtables*tg*;模糊匹配当前数据库下所有的表;CREATE EXTERNAL TABLE tg_cdr_noinfo_fix_d(call_duration int,otherfee double,source_type string,cycle_tag string)PARTITIONED BY(day_part string)ROW FORMAT DELIMITED FIELDS TERMINATED BY,STORED AS INPUTFORMAT org.apache.hadoop.mapred.TextInputFormat OUTPUTFORMAT org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormatLOCATION hdfs:/beh/data/stage2/tg_cdr_noinfo_fix_dTBLPROPERTIES(last_modified_by=hadoop,last_modified_time=1464585329,transient_lastDdlTime=1464585329)创建外部表2 2HadoopHadoop建表建表建表建表字段字段类型型表名表名表分区表分区CREATE TABLE dwa_v_d_cus_cb_sing_use_add(day_id string COMMENT 日期日期,area_id string COMMENT 地市地市,city_id string COMMENT 区区县,user_id string COMMENT 订购实例例标识,toll_nums double COMMENT 本地本地长途次数途次数,use_status string COMMENT 用用户使用使用类型型 dim.dim_4G_use_status)COMMENT cBSS业务单用用户累累计使用衍生信息使用衍生信息(日日)(从入网开始)(从入网开始)PARTITIONED BY(day_part string)ROW FORMAT DELIMITED FIELDS TERMINATED BY,STORED AS INPUTFORMAT org.apache.hadoop.hive.ql.io.RCFileInputFormat OUTPUTFORMAT org.apache.hadoop.hive.ql.io.RCFileOutputFormatLOCATION hdfs:/beh/user/hive/warehouse/dw.db/dwa_v_d_cus_cb_sing_use_addTBLPROPERTIES(transient_lastDdlTime=1461115949);创建表2 2HadoopHadoop建表建表建表建表字段字段类型及注型及注释表名表名表注表注释表分区表分区表的相关命令showcreatetabledw.dwa_v_d_cus_cb_sing_use_add;查询建表脚本;3 3showpartitionsdw.dw_v_u_k_cdr_gprs_cb;查看表分区数据数据数据数据查询查询及及及及导导出出出出select*fromdw.dw_v_u_k_cdr_gprs_cbwhereday_part=20160101limit1;查询数据insertoverwritetabledim.dim_cbss_deposit清表插入数据insertintotable插入数据insertoverwritetabledw.dw_v_deposit_info_cbpartition(day_part=$v_day);插入分区3 3数据数据数据数据查询查询及及及及导导出出出出导出方法一:insertoverwritelocalDIRECTORY$check_log_dirROWFORMATDELIMITEDFIELDSTERMINATEDBY$v_splitselect$v_column_listfrom$v_tabletwhere$v_part=$v_date;$v_hqlsh$v_hql2&1|tee$v_export_log/dev/null导出方法二:hive-S-eselect1;$directoryHadoop查看目录空间使用情况命令:hadoopfs-count-q统计出目录数、文件数及指定路径下文件的大小,输出列为:DIR_COUNT,FILE_COUNT,CONTENT_SIZE,FILE_NAME.带上-q选项后的输出列为:QUOTA,REMAINING_QUATA,SPACE_QUOTA,REMAINING_SPACE_QUOTA,DIR_COUNT,FILE_COUNT,CONTENT_SIZE,FILE_NAME.4 4HaoopHaoop的的的的hdfshdfs命令命令命令命令Hdfs相关命令hadoopfsls/列出当前目录有哪些子目录,有哪些文件。4 4hadoopfs-count/HaoopHaoop的的的的hdfshdfs命令命令命令命令hadoopfsmkidr/test在Hadoop文件系统当中,创建一个test目录hadoopfsrmr/test在Hadoop文件系统当中,创建一个test目录hadoopfsget/filename从Hadoop文件系统当中,获取一个文件到本地的文件系统。hadoopfsputsrcfile/desfile从本地的文件系统上传一个文件到Hadoop文件系统中。THANK YOU- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- hadoop 技术 基础 学习 资料 PPT 课件
咨信网温馨提示:
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【胜****】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【胜****】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【胜****】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【胜****】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。
关于本文