大数据工程师必读手册-像阿里巴巴一样玩转大数据.pdf
《大数据工程师必读手册-像阿里巴巴一样玩转大数据.pdf》由会员分享,可在线阅读,更多相关《大数据工程师必读手册-像阿里巴巴一样玩转大数据.pdf(327页珍藏版)》请在咨信网上搜索。
1、开篇 4AI 加持的阿里云飞天大数据平台技术揭秘4计算存储引擎 19飞天大数据平台计算引擎 MaxCompute 最新特性19飞天大数据平台实时计算 FlinkonKubernetes 最新特性36飞天大数据平台 E-MapReduce4.0 最新特性43大数据&AI 开发平台 55飞天大数据平台智能开发云平台 DataWorks 最新特性55飞天大数据平台机器学习 PAI 最新特性77搜索与推荐 88飞天大数据平台 OpenSearch 最新特性88飞天大数据平台 Elasticsearch 最新特性101飞天大数据平台智能推荐 AIRec 最新特性110目录AI 加持的阿里云飞天大数据平台
2、技术揭秘摘要:2019 云栖大会大数据&AI 专场,阿里云智能计算平台事业部研究员关涛、资深专家徐晟来为我们分享AI 加持的阿里云飞天大数据平台技术揭秘。本文主要讲了三大部分,一是原创技术优化+系统融合,打破了数据增长和成本增长的线性关系,二是从云原生大数据平台到全域云数仓,阿里开始从原生系统走入到全域系统模式,三是大数据与 AI 双生系统,讲如何更好的支撑 AI 系统以及通过 AI 系统来优化大数据系统。说到阿里巴巴大数据,不得不提到的是 10 年前王坚博士率领建构的飞天大数据平台,十年磨一剑,今天飞天大数据平台已是阿里巴巴 10 年大平台建设最佳实践的结晶,是阿里大数据生产的基石。飞天大数
3、据平台在阿里巴巴集团内每天有数万名数据和算法开发工程师在使用,承载了阿里 99%的数据业务构建。同时也已经广泛应用于城市大脑、数字政府、电力、金融、新零售、智能制造、智慧农业等各领域的大数据建设。大家知道飞天大数据平台是从 2009 年发展到今天的系统。飞天平台从发展的角度来讲经历了 2 个阶段,第一个阶段是从 2009 年到 2015 年,那个阶段我们主要解决的是稳定性问题、可用的问题和异用的问题,从这个角度,到 2015 年的时候我们完成了一个非常有名的项目叫登月,登月就是把阿里巴巴所有的数据都融合在一起关涛阿里云智能计算平台事业部研究员徐晟阿里云智能计算平台事业部资深技术专家开篇AI 加
4、持的阿里云飞天大数据平台技术揭秘AI 加持的阿里云飞天大数据平台技术揭秘天平台在 2015 年后就是围绕这三个关键性的问题来做工作的。原创技术优化+系统融合当阿里巴巴的大数据走过 10 万台规模的时候,我们已经走入到技术的无人区,这样的挑战绝大多数公司不一定能遇到,但是对于阿里巴巴这样的体量来讲,这个挑战是一直摆在我们面前的。大家可以看到,2015 年的时候,我们整个的体系建立起来之后,就开始做各种各样的 Benchmark,比如 2015 年 100TB 的 Sorting,2016 年我们做 Cloud-Sort,去看性价比,2017 年我们选择了 Bigbench。如图是我们最新发布的数
5、据,在2017、2018 和 2019 年,每年都有一倍的性能提升,同时我们在 30TB 的规模上比第二名的产品有一倍的性能增长,并且有一半的成本节省,这是我们的计算力持续上升的优化趋势。AI 加持的阿里云飞天大数据平台技术揭秘AI 加持的阿里云飞天大数据平台技术揭秘但是从另外一个层面上来讲,单一的算子和部分的算子组合很难满足部分的场景需求,所以我们就提到灵活的算子组合。举几个数字,我们在 Join 上有 4 种模式,有 3 种 Shuffling 模式提供,有 3 种作业运行模式,有多种硬件支持和多种存储介质支持。图右是怎样去动态判别 Join 模式,使得运算效率更高。通过这种动态的算子组合
6、,是我们优化的第二个维度。从引擎优化到自学习调优是我们在最近 1 年多的时间里花精力比较多的,我们在考虑如何用人工智能及自学习技术来做大数据系统,大家可以想象学骑自行车,刚开始骑得不好,速度比较慢甚至有的时候会摔倒,通过慢慢的学习,人的能力会越来越好。对于一个系统而言,我们是否可以用同样的方式来做?当一个全新的作业提交到这个系统时,系统对作业的优化是比较保守的,比如稍微多给一点资源,那么我选择的执行计划会相对比较保守一点,使得至少能够跑过去,当跑过之后就能够搜集到信AI 加持的阿里云飞天大数据平台技术揭秘AI 加持的阿里云飞天大数据平台技术揭秘计算引擎对大家来说看不见摸不着,我们要去用它肯定希
7、望用最简单的方式,先来看一下 Maxcompute 计算引擎。首先我们需要有用户,用户怎么来使用?需要资源隔离,也就是说每个用户在系统上面使用的时候会对应着账号,账号会对应着权限,这样就把整套东西串联起来。今天我的用户怎么用?用哪些部分?这是第一部分。第二部分是开发,开发有 IDE,IDE 用来写代码,写完代码之后提交,提交之后存在一个调度的问题,这么多的资源任务顺序是什么?谁先谁后,出了问题要不要中断,这些都由调度系统来管,我们的这些任务就有可能在不同的地方来运行,可以通过数据集成把它拉到不同的区域,让这些数据能够在整个的平台上跑起来,我们所有的任务跑起来之后我们需要有一个监控,同时我们的
8、operation 也需要自动化、运维化,再往下我们会进行数据的分析或者 BI 报表之类的,我们也不能够忘记 machinelearning 也是在我们的平台上集成起来的。最后,最重要的就是数据安全,这一块整个东西构起一个大数据引擎的外沿+大数据引擎本身,这一套我们称之为单引擎的完备大数据系统,这一套系统我们在 2017 年的时候就具备了。2018 年的时候我们做什么?2018 年我们在单引擎的基础上对接到多引擎,我们整个开发链路要让它闭环化,数据集成可以把数据在不同的数据源之间进行拖动,我们把数据开发完之后,传统的方式是再用数据引擎把它拖走,而我们做的事情是希望这个数据是云上的服务,这个服务
9、能够直接对用户提供想要的数据,而不需要把数AI 加持的阿里云飞天大数据平台技术揭秘AI 加持的阿里云飞天大数据平台技术揭秘云原生平台到全域云数仓我们整个平台都是云原生的,云原生有哪些技术呢?飞天大数据平台在 10 年前就坚持云原生的数据,云原生意味着三件事情,第一开箱即用、不用不花钱,这个和传统的买硬件方式有非常大的不同;第二我们具备了秒级自适应的弹性扩展,用多少买多少;第三因为是云上的框架,我们很多运维和安全的东西由云自动来完成了,所以是安全免运维的。从系统架构上讲,飞天大数据包括传统的 CPU、GPU 集群,以及平头哥芯片集群,再往上是我们的伏羲智能调度系统和元数据系统,再往上我们提供了多
10、种计算能力,我们最重要的目标就是通过云原生设计把 10 万台在物理上分布在不同地域的服务器让用户觉得像一台计算机。我们今天已经达到了 10 年前的设计要求,具备了更强的服务扩展能力,能够支撑 5 到 10年的数据进步的发展。我们充分利用云原生设计的理念,支持大数据和机器学习的快速大规模弹性负载需求。我们支撑 0 100 倍的弹性扩容能力,去年开始,双十一 60%的数据处理量来自于大数据平台的处理能力,当双 11 巅峰来的时候,我们把大数据的资源弹回来让给在线系统去处理问题。从另外一个角度来讲,我们具备弹性能力,相比物理的 IDC 模式,我们有 80%成本的节省,按作业的计费模式,我们提供秒级弹
11、性伸缩的同时,不使用不收费。相比自建 IDC,综合成本只有 1/5。除了坚持原生之外,我们最近发现,随着人工智能的发展,语音视图的数据越来越多了,处理的能力就要加AI 加持的阿里云飞天大数据平台技术揭秘AI 加持的阿里云飞天大数据平台技术揭秘如图为飞天大数据的产品架构,下面是存储计算引擎,可以看到我们除了计算引擎自带的存储之外还有其它开放的 OSS,还有 IOT 端采集的数据和数据库的数据,所有数据进行全域数据集成,集成后进行统一的元数据管理,统一的混合任务调度,再往上是开发层和数据综合治理层,通过这种方式,我们立体化的把整个大数据圈起来管理。大数据与 AI 双生系统提到了大数据我们肯定会想到
12、 AI,AI 和大数据是双生的,对于 AI 来说它是需要大数据来 empower 的,也就说 bigdataforAI。下面可以通过一个 demo 来看我们怎么来做这件事情。对于 AI 的开发工程师来说,他们比较常用的方式是用交互式的notebook 来进行 AI 的开发,因为它比较直观,但是如何把大数据也进行交互式开发,并且和 AI 来绑定,下面来看一下这个简单的例子。AI 加持的阿里云飞天大数据平台技术揭秘AI 加持的阿里云飞天大数据平台技术揭秘大数据和 AI 是双生系统,AI 是一个工具层,可以优化所有的事情。我们希望飞天的大数据平台能够赋能给 AI。我们在最开始的时候希望 build
13、一个可用的系统,能够面临双 11 的弹性负载仍然是可用的。通过这些年的努力,我们追求极致的性能,我们能够打破数据的增长和成本增长的线性关系,我们也希望它是一个智能的,我们希望更多的数据开发工程师来支持它,我们需要更复杂的人力投入来理解他,我们希望有更强的大数据来优化大数据系统。AI 加持的阿里云飞天大数据平台技术揭秘AI 加持的阿里云飞天大数据平台技术揭秘这是 AutoDataWarehouse 系统架构图,从多集群的负载均衡到自动冷存,到中间的隐形作业优化,再到上层的隐私数据自动识别,这是我们和蚂蚁一起开发的技术,当隐私的数据自动显示到屏幕上来,系统会自动检测并打码。我们其中的三项技术,包括
14、自动隐私保护,包括重复子查询自动合并优化,包括多集群的自动容灾,我们有 3 篇 paper 发表,大家有兴趣的话可以去网站上读一下相关的论文。飞天大数据平台计算引擎 MaxCompute 最新特性摘要:距离上一次 MaxCompute 新功能的线上发布已经过去了大约一个季度的时间,而在这一段时间里,MaxCompute 不断地在增加新的功能和特性,比如参数化视图、UDF 支持动态参数、支持分区裁剪、生成建表 DDL 语句功能等功能都已经得到了广大开发者的广泛使用。那么,近期 MaxCompute 究竟还有哪些新特性呢?本文就为大家揭晓答案。MaxCompute 与阿里云大数据产品解决方案在介绍
15、 MaxCompute 新功能前,我们先快速对阿里云的大数据产品解决方案进行介绍,以便不熟悉 MaxCompute 的朋友能快速建立认知。阿里云大数据解决方案中包含了数据接入、数据存储及处理分析、数据服务以及在线应用等这样的几个维度。通常的情况下,基于 MaxCompute 和阿里云大数据解决方案搭建的系统会通过 DataWorks 实现离线多源异构数据的同步,并向MaxCompute 大数据平台加载数据。与此同时,借助于 DTS 日志服务、Kafka 消息队列服务实现对实时数据的收集。之后,通过流式计算服务实现对于数据的实时计算和分析,并将数据投递到实时在线的服务或者回流到统一的数据仓库服务
16、中去。数曲宁阿里云智能计算平台事业部产品专家计算存储引擎20飞天大数据平台计算引擎 MaxCompute 最新特性据落盘保留下来之后,将进行数据仓库相关的处理分析,加工成为可以被业务消费、高质量的数据集。同时,利用机器学习平台可以开展包含数据准备、模型训练、模型部署在线推理在内的完整智能应用。在数据服务(dataserving)维度,阿里云大数据产品解决方案中也提供了多种的服务,包括了关系型数据库、分析型数据库、ES 等,这些服务能够帮助用户加速在面向在线应用场景下的数据消费。同时,阿里云大数据产品解决方案还能够与阿里云线上的 QuickBI、DataV 以及第三方客户自行购买的 BI 等工具
17、进行结合。在云上大数据场景下,DataWorks 则承担的是整体的数据开发、编排调度以及数据管理的职能。What s New?MaxCompute 产品近期发布预览本次分享面对的主要群体是对于阿里云 MaxCompute 产品有所了解并且有一定使用经验的客户,因此所介绍的内容会比较细致,但不会过多展开相关背景及原理介绍,更多地会面向 MaxCompute 已有的问题以及新推出的特性本身进行分享。飞天大数据平台计算引擎 MaxCompute 最新特性飞天大数据平台计算引擎 MaxCompute 最新特性新功能:SQL-参数化视图MaxCompute 近期发布上线的版本围绕着 SQL 核心功能的一
18、些细节做了大量的优化和提升,其中一点就是参数化视图。MaxCompute 传统的视图(VIEW)中实现了一定的封装与重用,但是并不接受调用者传递的任何参数,例如:调用者无法对视图读取的底层表进行数据过滤或传递其它参数,导致代码重用能力低下。MaxCompute 近期发布上线的版本的 SQL 引擎支持带参数的视图,支持传入任意表或者其它变量来定制视图的行为,从而增强了视图的可用性和复用度。新功能:SQL-UDTF/UDAF 支持动态参数新发布的 MaxCompute 版本的 SQL 能够支持 UDF 相关的动态参数。如下图中的代码所示,其中含有一个命名为 JsonTuple 的 UDTF。这里
19、JsonTuple 的业务需求就是首先读取一个 JSON 串,其中包含了一系列 JSON 内容,并且需要解析其中某些节点的信息。飞天大数据平台计算引擎 MaxCompute 最新特性飞天大数据平台计算引擎 MaxCompute 最新特性布的新特性则是 UDT 对于 MaxCompute 中资源访问的支持。MaxCompute 中有很多种对象,其中一种就是资源,比如一些数据文件。MaxCompute 可以使用 SQL通过 Resource 读取文本文件,也可以通过 Set 参数的方式将自定义的 JAR 作为UDT 能够直接访问的一个库,并在 UDT 当中使用用户自定义的第三方库。新功能:SQL-
20、UDF 支持分区裁剪MaxCompute 本身有大量的分区表,在分区的使用中一个很重要的优化点就是通过分区裁剪的方式在查询中过滤分区。在过滤分区的时候,有时需要使用一些自定义的逻辑,通过一些自定义的功能来确定分区的范围。当增加一个 UDF 时往往会发生全表扫描,这是因为在提交查询的时候还不能确定提交的分区到底是哪个,因此会发生全表扫描,进而带来比较高的费用和更重的负载。飞天大数据平台计算引擎 MaxCompute 最新特性飞天大数据平台计算引擎 MaxCompute 最新特性新功能:SQL-支持指定表的列默认值新版本的 MaxCompute 中也支持了指定表的列默认值。其实熟悉大数据发展历程的
21、同学们都应该有所了解,数据库中存在很多比较完善技术,比如在校验机制、约束条件上都提供了各种默认值可供开发者选择。而大数据技术在这些方面所做的远远不够,目前的发展趋势是在数据的质量和数据的校验等方面工作中,大数据技术越来越靠近数据库技术。在 MaxCompute 最新的版本发布中提供的 DEFAULTVALUE就允许了用户创建数据表的时候去指定默认值。飞天大数据平台计算引擎 MaxCompute 最新特性飞天大数据平台计算引擎 MaxCompute 最新特性和 EXTRACT。MaxCompute 本身在之前对于字符串的处理只有一个 getJsonOb-ject()内建函数,而只有这样的一个函数
22、是比较痛苦的,因为在提取 JSON 中多个节点值的时候往往需要多次调用这个内建函数来获取某个节点的值。而新增的 JSON_TUPLE 函数则解决了这些问题。使用 JSON_TUPLE 首先可以获得一个 JSON 字符串,该函数的参数则可以是多个动态的参数,比如想要获取 10 个节点的值就可以带 10 个参数,而且还适合使用嵌套式数据,因此 JSON_TUPLE 将来也会成为开发者使用较多的内建函数。此外,新版本 MaxCompute 的SQL 中还支持了 EXTRACT 函数,能够按年、按月、按日、按小时、按分钟来截取日期。因为对于日期的处理也属于高频操作,因此 EXTRACT 函数也将会被高
23、频地使用。新功能-分区管理除了前面提到的 MaxCompute 在 SQL 中的一些增强功能之外,新版本的MaxCompute 还提供了一些其他的能力,比如分区管理的能力。在分区管理部分,一个比较重要的场景就是由于开发者往往喜欢使用较多的分区,而当数据量大的时候飞天大数据平台计算引擎 MaxCompute 最新特性飞天大数据平台计算引擎 MaxCompute 最新特性比如在作业排队比较严重,产生积压的情况时,也希望能够通过监控报警系统获得排队积压信息,并且及时告警,从而更加利于人工及时进行干预,保证当核心业务出现问题时能够得到及时处理。MaxCompute 所提供的预付费资源监控报警能力基于阿
24、里云所提供的云监控服务,并且结合了配额组 CPU 使用量、作业等待等待数、内存使用量、整体 CPU 使用率等一些关键指标,通过对以上这些指标进行规则配置,就能实现对于关键事件的短信通知以及实时告警,从而帮助用户更好地管理和使用资源。新功能-IP 白名单支持 IPV6目前,IPV6 已经成为阿里云整体都会支持的能力,而 MaxCompute 本身也支持了 IPV6。对于 IP 白名单这个安全特性而言,过去 MaxCompute 支持 IPV4,目前也扩展支持了 IPV6,使用方式与原本的 IPV4 差异不大,通过白名单列表的设置就能够同时支持 IPV4 和 IPV6。飞天大数据平台计算引擎 Ma
25、xCompute 最新特性飞天大数据平台计算引擎 MaxCompute 最新特性本次新发布的预付费打包套餐和之前的固定资源配额都属于固定规格预付费方式。预付费套餐的售卖方式为混合付费,在开通时以包年包月方式购买计算资源(主要为 CU)和存储资源。使用时,公网下载流量和超出的存储容量按使用量收费。总体而言,预付费套餐实际是将一定大小计算资源和存储资源打包销售的优惠套餐,相比于企业客户在线下自行搭建的大数据常用配置的计算和存储规模,阿里云本次所推出的预付费套餐将会提供一个十分具有竞争力的价格,这样一来既能够保证企业每月的财务支出比较稳定,同时也能够提供较高的性价比。体验优化:文档持续优化及最佳实践
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 工程师 必读 手册 阿里巴巴 一样 玩转大
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【Stan****Shan】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【Stan****Shan】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。