大数据基础全书电子讲义正本书电子讲义讲义教学讲义.docx
《大数据基础全书电子讲义正本书电子讲义讲义教学讲义.docx》由会员分享,可在线阅读,更多相关《大数据基础全书电子讲义正本书电子讲义讲义教学讲义.docx(238页珍藏版)》请在咨信网上搜索。
1、项目一 大数据概述知识目标 熟悉数据的生命周期 了解数据战略 了解大数据分析 了解大数据的应用方向及产业情况能力目标 掌握数据的概念 掌握数据的类型 掌握大数据概念 掌握大数据的特征及技术素质目标能掌握数据与大数据的概念,并准确把握七关联与区别;准确把握大数据的发展趋势。知识精讲 任务一 数据一、数据的概念数据(data)指对客观事件进行记录并可以鉴别的符号,是对客观事物的性质、状态以及相互关系等进行记载的物理符号或这些物理符号的组合。对数据的含义的理解要把握以下几点:第一,数据是可识别的、抽象的符号。第二,数据和信息是不可分离的,数据是信息的表达,信息是数据的内涵。数据本身没有意义,数据只有
2、对实体行为产生影响时才成为信息。因此,数据是信息的表现形式和载体,可以是符号、文字、数字、语音、图像、视频等。第三,数据可以是连续的值,比如声音、图像,称为模拟数据。也可以是离散的,如符号、文字,称为数字数据。第四,在计算机系统中,各种字母、数字符号的组合、语音、图形、图像等统称为数据,数据经过加工后就成为信息。在计算机系统中,数据是指所有能输入到计算机并被计算机程序处理的符号的介质的总称,是用于输入电子计算机进行处理,具有一定意义的数字、字母、符号和模拟量等的通称。二、数据的类型(一)按性质分为1.定位数据,如各种坐标数据;2.定性数据,如表示事物属性的数据(居民地、河流、道路等);3.定量
3、数据,反映事物数量特征的数据,如长度、面积、体积等几何量或重量、速度等物理量;4.定时数据,反映事物时间特性的数据,如年、月、日、时、分、秒等。(二)按表现形式分为1.数字数据,如各种统计或量测数据;2.模拟数据,由连续函数组成,是指在某个区间连续变化的物理量,又可以分为图形数据(如点、线、面)、符号数据、文字数据和图像数据等,如声音的大小和温度的变化等。(三)按记录方式分按记录方式分为地图、表格、影像、磁带、纸带等。(四)按数字化方式分按数字化方式分为矢量数据、格网数据等。【素质拓展】数据的语义特点数据的表现形式还不能完全表达其内容,需要经过解释,数据和关于数据的解释是不可分的。如130是一
4、个数据,可以是某门课程的成绩,也可以是某个人的体重,还可以是某个班级的人数。数据的解释是指对数据含义的说明,数据的含义称为数据的语义。数据与其语义是不可分的。三、数据生命周期数据生命周期指的是数据从创建到销毁的整个过程,通常根据指定的策略将数据组织成各个不同的层,并基于那些关键条件自动地将数据从一个层移动到另一个层,作为一项规则,较新的数据和那些很可能被更加频繁访问的数据,应该存储在更快的,并且更昂贵的存储媒介上,而那些不是很重要的数据则存储在比较便宜的,稍微慢些的媒介上。基于大数据环境下数据在组织机构业务中的流转情况,定义了数据生命周期的6个阶段,具体各阶段的定义如下:1.数据采集指新的数据
5、产生或现有数据内容发生显著改变或更新的阶段。对于组织机构而言,数据的采集既包含在组织机构内部系统中生成的数据也包含组织机构从外部采集的数据。2.数据存储指非动态数据以任何数字格式进行物理存储的阶段。3.数据处理指组织机构在内部针对动态数据进行的一系列活动的组合。4.数据传输指数据在组织机构内部从一个实体通过网络流动到另一个实体的过程。5.数据交换指数据经由组织机构内部与外部组织机构及个人交互过程中提供数据的阶段。6.数据销毁指通过对数据及数据的存储介质通过相应的操作手段,使数据彻底丢失且无法通过任何手段恢复的过程。特定的数据所经历的生命周期由实际的业务场景所决定,并非所有的数据都会完整的经历六
6、个阶段。【素质拓展】数据资源使用许可与保密协议编号( )数据资源使用许可与保密协议管理方:使用方:数据用途及内容:我单位承担xxx单位的xxx项目,需向xxx申请使用xxx数据,为规范xxx数据使用,保证数据应用安全,防止数据泄密,特签订如下协议。一、使用方必须遵守以下使用协议1、使用方从xxx获取的数据享有受限使用权,仅限于在xxx项目工作范围内使用,不得透露给任何第三方。2、使用方必须在使用数据所形成的成果的显著位置注明该数据版权的所有者( xxx )。3、使用方对许可使用的数据不拥有复制、传播、出版、翻译成外国语言等权利不得以商业目的使用该数据或者开发和生产产品。数据的任何格式或者任何复
7、制品视同原始数据。使用方可根据需要对数据内容进行必要的修改和对数据格式进行转换,但未经许可不得将修改、转换后的数据对外发布和提供,并须将修改、转换的情况及修改、转换的内容向管理方备案。4、不得使用数据从事危害国家安全、社会公共利益和他人合法权益的活动。5、若使用方违反本协议规定,管理方有权责令使用方停止使用共享数据并归还管理方,且将再复制的该数据及其衍生品全部删除。6、在数据使用期限内,管理方有权对使用方数据成果使用情况、数据存储设备管理情况、数据保密管理情况进行检查。如发现存在严重泄密倾向,将有权责令使用方停止使用共享数据,归还数据,将再复制的该数据及其衍生品全部删除。7、使用方在数据使用期
8、限(_ 年 月 日至_ 年 月 日)结束后须及时归还数据,将再复制的该数据及其衍生品全部删除。二、使用方必须遵守以下保密协议1、使用方必须按国家有关保密法律法规的要求,采取有效的保密措施,确保资料安全,严防丢失泄密。2、使用xxx项目数据仅限用于申请使用的范围,不得挪作他用。发表论文、报告、讲话等涉及数据内容应书面告知管理方。3、使用方在本单位内须严格数据使用管理,控制数据知悉范围,建立专人负责制度,制定领用管理台帐,告知使用人员保密要求,并与数据使用人员签订保密承诺书。4、使用方必须设置数据专用计算机,专人负责,专机专用。数据专用计算机禁止连接互联网,禁止通过网络传输数据信息。不得将数据或衍
9、生成果在互联网上登载。三、违约责任1、使用方使用xxx项目数据违反有关保密规定的,依照中华人民共和国保密法、中华人民共和国测绘成果管理规定等有关法律法规的规定处理。2、使用方违反本协议规定的,管理方有权对因此造成的损失要求赔偿;构成犯罪的,由司法机关追究其刑事责任。3、因使用方使用或保管数据不当,导致知识产权纠纷或失密事件,由使用方负全部法律责任。四、本协议一式四份,管理方持三份,使用方持一份,具有相同的法律效力。五、协议由双方法定代表或代理人签字后生效。管理方:(盖章) 使用方:(盖章)法人代表或代理人(签字) 法人代表或代理人(签字)时间: _ 年 月 日 时间: _ 年 月 日四、数据战
10、略随着数字经济在全球加速推进以及5G、人工智能、物联网等相关技术的快速发展,数据已成为影响全球竞争的关键战略性资源。只有获取和掌握更多的数据资源才能在新一轮的全球话语权竞争中占据主导地位。目前,全球数据量在飞速增长,各国数据战略布局步伐加快。1.美国联邦数据战略焦点从“技术”转移到“资源”自2012年以来,美国极力推动大数据领域前沿核心技术的发展和科学工程领域的发明创造,致力打造有活力的数据创新生态。2019年美国白宫行政管理和预算办公室(OMB)发布联邦数据战略与2020年行动计划(以下简称“联邦数据战略”),其核心目标是“将数据作为战略资源开发”。联邦数据战略确立了40项数据管理的具体实践
11、目标,包括重视数据并促进共享、保护数据资源、有效使用数据资源三个层次。2.欧盟数据战略致力于发展数据敏捷型经济体数据已成为经济社会发展的重要命脉,欧盟致力于平衡数据流动和广泛使用,希望通过建立单一的数据市场,确保欧洲在未来的数据经济中占据领先地位。2020年2月19日,欧盟委员会公布了欧盟数据战略,提出了到2030年欧洲将成为世界上最具吸引力、最安全、最具活力的数据敏捷型经济体的愿景目标。即,在保持高度的隐私、安全和道德标准的前提下,充分发掘数据利用的价值造福经济社会,并确保每个人能从数字红利中受益。为推进欧盟数据一体化和提升欧盟国家的市场主体竞争力,欧盟数据战略提出了四大支柱性战略措施:一是
12、构建跨部门治理框架;二是加强数据投入;三是提升数据素养;四是构建数据空间。3.英国通过数据战略助力经济复苏2020年9月9日,英国数字、文化、媒体和体育部(DCMS)发布国家数据战略,支持英国对数据的使用,设定五项“优先任务”,帮助该国经济从疫情中复苏。这五项任务包括:(1)释放数据的价值;(2)确保促进增长和可信的数据体制;(3)转变政府对数据的使用,以提高效率并改善公共服务;(4)确保数据所依赖的基础架构的安全性和韧性;(5)倡导国际数据流动。英国国家数据战略还包括设立政府首席数据官,改变政府当前的数据使用方式,以此提高效率并改善公共服务;通过立法提高智慧数据计划的参与度;在支持创新发展的
13、同时致力于解决当前数据共享中存在的障碍等。4.我国政府高度重视大数据的发展。自2014年以来,我国国家大数据战略的谋篇布局经历了四个不同阶段。(1)预热阶段2014年“大数据”一词首次写入政府工作报告,为我国大数据发展的政策环境搭建开始预热。从这一年起,“大数据”逐渐成为各级政府和社会各界的关注热点,中央政府开始提供积极的支持政策与适度宽松的发展环境,为大数据发展创造机遇。(2)起步阶段2015年国务院正式印发了促进大数据发展行动纲要(国发201550号),成为我国发展大数据的首部战略性指导文件,对包括大数据产业在内的大数据整体发展作出了部署,体现出国家层面对大数据发展的顶层设计和统筹布局。(
14、3)落地阶段十三五规划纲要的公布标志着国家大数据战略的正式提出,彰显了中央对于大数据战略的重视。2016年工信部发布大数据产业发展规划(2016-2020年),为大数据产业发展奠定了重要的基础。(4)深化阶段随着国内大数据迎来全面良好的发展态势,国家大数据战略也开始走向深化阶段。2017年党的十九大报告中提出推动大数据与实体经济深度融合,为大数据产业的未来发展指明方向。2019年3月,政府工作报告第六次提到“大数据”,并且有多项任务与大数据密切相关。2020年4月,中共中央、国务院发布关于构建更加完善的要素市场化配置体制机制的意见,将“数据”与土地、劳动力、资本、技术并称为五种要素,提出“加快
15、培育数据要素市场”。5月18日,中央在关于新时代加快完善社会主义市场经济体制的意见中进一步提出加快培育发展数据要素市场。这标志着数据要素市场化配置上升为国家战略,将进一步完善我国现代化治理体系,有望对未来经济社会发展产生深远影响。任务二 大数据一、大数据的概念“大数据”概念最早出现在1980年,由著名的未来学家阿尔文托夫勒在其著作第三次浪潮中所提出。2009年美国互联网数据中心证实大数据时代的来临,而在今天,我们已经能充分感受到大数据的魅力和影响力。许多人看到“大数据”一词,会先入为主的认为大数据就是“大量数据”或者“强大的数据”。其实并非这样,“大”意为:“有用的”、“实用的”、“有价值的”
16、。关于大数据的确切定义,不同组织从不同角度给出了不同的定义。全球领先的管理咨询公司麦肯锡给出的大数据定义是:“一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。”著名研究机构高德纳咨询公司(Gartner)给出的定义是:“大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。”全球最大的数据中心IDC则侧重从技术角度说明其概念:“大数据处理技术代表了新一代的技术架构,这种架构通过高速获取数据并对其进行分析和挖掘,从海量且形式各异的数
17、据源中更有效地抽取出富含价值的信息。”综合各种观点给出大数据的定义:大数据(big data)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。【素质拓展】 数据与大数据的关联与区别传统数据大数据数据格式结构化数据非结构化数据+结构化数据存储模式集中存储分布式存储计算平台数据库查询平台有较好的安全机制分布式计算处理平台几乎没有安全机制复杂度相对简单由于异构性,导致复杂度增加计算物理环境以服务器为主,有向云上转移的趋势,有较清晰的边界云是主要的承载物理平台,但仍有利用物理服务器,
18、边界模糊保护目标机密性、完整性、可用性机密性、完整性、可用性同时要进一步考虑数据的真实性数据库结构SQLSQL+NOSQL软件栈C+为主Java为主主流规模110台31000台,最高可支持上万台包含的内容集中存储、查询存储、查询、计算、ETL、分布式应用程序协调服务二、大数据的特征大数据具有四个特征:第一是数据体量大(Volume);第二是数据类型繁多(Variety);第三是价值密度低(Value);第四是处理速度快(Velocity)。业界将其归纳为4个“V”Volume,Variety,Value,Velocity。1、数据体量大(Volume)大数据最明显的特点就是体量大。过去由于数据
19、量不够,即使用了数据,依然不足以消除不确定性,因此数据的作用其实有限,很多人忽视它的重要性是必然的,数据的价值也就被严重低估。统计发现,非结构化数据占总数据量的8090%,比结构化数据增长快10到50倍。据IDC预测,未来10年全球数据量将以大于40%的速度增长。2、数据类型繁多(Variety)大数据种类繁多,一般包括结构化、半结构化和非结构化等多类数据。这些数据在编码方式、数据格式、应用特征等多个方面存在差异性,多信息源并发形成大量的异构数据。不同结构的数据处理和分析方式也有所区别。3、价值密度低(Value)大数据价值密度的高低与数据总量大小成反比,单条数据本身并无太多价值,但庞大的数据
20、量累积并隐藏了巨大的财富。其价值具备稀疏性、多样性和不确定性等特点。4、处理速度快(Velocity)数据的快速流动和处理是大数据区分于传统数据挖掘的显著特征。比如,涉及感知、传输、决策、控制开放式循环的大数据,对数据实时处理有着极高的要求,通过传统数据库查询方式得到的“当前结果”很可能已经没有价值。因此,大数据更强调实时分析而非批量式分析。大数据中的数据量非常巨大,达到了PB级别。而且这庞大的数据之中,不仅仅包括结构化数据(如数字、符号等数据),还包括非结构化数据(如文本、图像、声音、视频等数据)。这使得大数据的存储,管理和处理很难利用传统的关系型数据库去完成。在大数据之中,有价值的信息往往
21、深藏其中。这就需要对大数据的处理速度要非常快,才能短时间之内就能从大量的复杂数据之中获取到有价值的信息。在大数据的大量复杂的数据之中,通常不仅仅包含真实的数据,一些虚假的数据也混杂其中。这就需要在大数据的处理中将虚假的数据剔除,利用真实的数据来分析得出真实的结果。三、大数据的内涵理解大数据是一门技术,也是一种全新的商业模式,代表着一种思维方式。它是大规模数据的集合体,更是数据对象、集成技术、分析应用、商业模式、思维创新的统一体。1.从对象角度来看,大数据是数据规模超出传统数据库处理能力的数据集合大数据对象既可能是实际的、有限的数据集合,也可能是虚拟的、无限的数据集合。目前,数据的发展演进已由数
22、据库时代走向大数据时代,数据量处于TB级,乃至PB级,甚至更高。但是,大数据并非大量数据简单、无意义的堆积,而是在数据之间存在或远或近、或直接或间接的关联性,具有分析挖掘的价值,并且数据集中储存和计算已经达到传统数据库软件无法处理的巨大数据量,具有非结构化数据无固定格式、变化多、并发高、增长速度快等特性。传统数据库研究讲究因果关系,强调的是数据精确性,而大数据研究则侧重于相关性,强调挖掘不同事物间的相关性,并以此作为各类判断的依据。此外,大数据使运算更依赖于数据而不是算法,较多的数据对于结果的影响要好于事先模型。2.从技术角度来看,大数据是从海量数据中快速获得有价值信息的技术大数据技术涉及数据
23、采集、存储、管理、分析挖掘、可视化等技术及其集成。该技术可以从凌乱纷繁的数据背后找到更符合用户兴趣和习惯的产品和服务,并对产品和服务进行针对性的调整和优化。传统数据库软件在应对大数据多样化格式上较为吃力,其存储、计算也难以获得满意效果,因此并不适用于大数据分析,需要革新性的大数据技术来解决这些问题。现在常用的大数据技术包括:批量分布式并行计算Hadoop技术、实时分布式高吞吐高并发数据存取处理NoSQL技术、利用廉价服务器搭建高容错性并行计算架构技术等,涉及数据聚类、数据挖掘、分布式处理各领域。3.从应用角度来看,大数据是对特定数据集合应用相关技术获得价值的行为大数据有着旺盛的应用需求和广阔的
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 基础 全书 电子 讲义 正本 教学
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【人****来】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【人****来】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。