京东大数据技术白皮书.pdf
《京东大数据技术白皮书.pdf》由会员分享,可在线阅读,更多相关《京东大数据技术白皮书.pdf(120页珍藏版)》请在咨信网上搜索。
1、京东大数据技术白皮书京东大数据平台部出品 京东大数据平台部出品 京东大数据技术白皮书 1 目 录 目 录 序言序言.3 前言前言.5 1 1 京东大数据的发展历程京东大数据的发展历程.8 2 2 京东大数据的技术体系京东大数据的技术体系.10 2.12.1 数据采集和预处理数据采集和预处理.10 2.22.2 流量数据采集流量数据采集.13 2.32.3 数据存储体系数据存储体系.22 2.42.4 离线计算环境离线计算环境.34 2.52.5 实时计算环境实时计算环境.37 2.62.6 机器学习环境机器学习环境.40 2.72.7 任务管理和调度任务管理和调度.43 2.82.8 资源监控
2、和运维资源监控和运维.49 3 3 京东大数据的数据管理京东大数据的数据管理.54 3.13.1 数据架构设计数据架构设计.55 3.23.2 数据资产管理数据资产管理.57 3.33.3 统一指标体系统一指标体系.65 3.43.4 数据安全管理数据安全管理.66 3.53.5 数据服务管理数据服务管理.68 4 4 京东大数据的数据产品京东大数据的数据产品.75 4.14.1 京东商智京东商智.75 4.24.2 智能营销智能营销.76 京东大数据技术白皮书 2 4.34.3 数据管家数据管家.77 4.44.4 祖冲之祖冲之.78 5 5 京东大数据的应用场景京东大数据的应用场景.80
3、5.15.1 营销领域营销领域.80 5.25.2 物流领域物流领域.81 5.35.3 供应链领域供应链领域.82 5.45.4 智能零售智能零售.85 5.55.5 金融业务创新金融业务创新.86 5.65.6 时尚创新时尚创新.88 5.75.7 人工智能人工智能.89 6 6 京东大数据的合作生态京东大数据的合作生态.93 7 7 京东大数据的特点京东大数据的特点.95 7.17.1 高可用和高性能高可用和高性能.95 7.27.2 一站式服务平台一站式服务平台.98 7.37.3 可靠的安全保障可靠的安全保障.99 8 8 京东大数据展望京东大数据展望.103 8.18.1 融合统一
4、融合统一.103 8.28.2 开放合作开放合作.109 8.38.3 技术前瞻技术前瞻.110 结语结语.117 参考文献参考文献.118 京东大数据技术白皮书 3 序言序言 众所周知,大数据是企业的基本生产资料,数据信息是企业宝贵的资产。不同于其他资产,数据资产主要在企业运营过程中产生,较易获取,但要持续积累、沉淀和做好管理却并不容易,这是一项长期且系统性的工程。未经“雕琢”的数据是一组无序、混乱的数字,并不能给企业带来何种价值,从庞杂晦涩的数据中挖掘出“宝藏”充满着挑战,这需要将业务、技术与管理三者相互融合起来进行创新。京东作为一家业内领先的互联网科技公司,完整的产业链条带来了价值可沽的
5、海量大数据,丰富的业务场景也为技术发展提供了最佳创新土壤。从认知、探索到今天京东技术上的百花齐放,我们经历了最为艰苦的创新和付出。业务的复杂与多元化,数据的飞速增长,给我们带来了很多棘手问题,但也使得大数据平台拥有更强大的能力,形成了一套完整的技术体系和有效的数据管理方法,并在实践中得以验证和夯实。京东大数据平台作为京东集团的数据中台,支撑了京东无界零售的数据运营和创新。京东大数据技术白皮书总结了大数据技术在京东的落地和成长,分享了大数据技术体系和管理架构,阐述了大数据在京东的典型业务应用场景,并对大数据的技术方向进行了展望,是一次对京东大数据平台的最全面解读,希望我们的实践和思考能给同行以启
6、发和参考,我们期待和业界一起推京东大数据技术白皮书 4 动国内大数据产业的进步和发展。京东京东集团集团首席首席技术官技术官 张晨张晨 京东大数据技术白皮书 5 前言前言 大数据概念近年来受到高度关注,大数据在各个行业的应用及其带来的影响也引起越来越多的讨论。大数据正在从单纯的技术概念向实际部署应用转变;从少数领域向众多领域渗透;从企业内部向各产业与公共服务方向扩展。目前,无论国内还是国外,大数据技术都在经历前所未有的快速演变,以满足各种应用的需求。我国已将大数据发展确定为国家战略,强调要瞄准世界科技前沿,集中优势资源突破大数据核心技术,加快构建自主可控的大数据产业链、价值链和生态系统。大数据产
7、业在国内发展得如火如荼,据统计,2016 年大数据产业规模达 14500 亿元,2017 年达 19570 亿元,到 2020 年将达到 5 万亿元。大数据技术已经在如电子商务、政务、民生、金融、工业、医疗等多个领域中广泛应用。从国内的大数据技术和行业应用发展来看,大数据技术的基础架构技术已日趋成熟,大数据领域由技术创新驱动转向应用创新驱动的趋势开始显现,但更多的传统企业在如何建设大数据平台,如何利用大数据来驱动企业业务发展上仍然缺乏经验,这在一定程度上制约了大数据技术的大规模产业应用。京东拥有全渠道零售和端到端的高质量大数据,包含了用户的浏览和消费行为、商品制造和销售、物流仓储配送以及客服与
8、京东大数据技术白皮书 6 售后等丰富完整的信息。同时,京东业务中包含有大量丰富的大数据应用场景,是大数据实践的最佳场所。早在 2010 年,京东集团就启动了大数据领域的研发和应用探索工作,经过八年来的持续投入,京东大数据平台无论从规模、技术先进性,还是体系的完整性等方面均已达到国内一流水平。作为支撑公司数据运营的重要阵地,目前已拥有集群规模 40000+服务器,数据规模达800PB+,每日的 JOB 数 100 万+,业务表 900 万+,每日的离线数据日处理量 30PB+,单集群规模达到 7000+台,实时计算每天消费的数据记录近万亿条。京东大数据平台建设了完整的技术体系,包括离线计算、实时
9、计算和机器学习平台,可以满足多种复杂应用场景的计算任务。元数据管理、数据质量管理、任务调度、数据开发工具、流程中心等构成了全面的数据运营工具。分析师、指南针等数据应用产品提供了便利的数据分析功能,以及敏感数据保护、数据权限控制等策略方案,能够最大程度地保护数据资产的安全。京东大数据在驱动企业业务增长,提升运营效率,为客户提供个性化、高品质产品及服务上发挥了重要作用。利用大数据分析和挖掘,京东打造了个性化商城,自主研发了智能门店解决方案,打造了智能供应链体系,提高了物流配送的效率,实现了知人、知货、知场景的购物体验。京东大数据的应用已渗透到了业务的各个环节。近几年,京东大数据承担了包括大数据和人
10、工智能领域在内京东大数据技术白皮书 7 的多项国家级重点研发项目。2017 年,京东获得了国家“大数据智能管理与分析技术”国家地方联合工程研究中心的授牌。这些都是国家对京东大数据实力的认可,是京东技术实力的体现。京东是“开放的京东”,随着国家大数据战略的逐步落实,我们希望能输出京东的大数据技术能力,建设开放的技术平台,借助技术和数据为政府和社会创造更多价值,我们希望借此白皮书的发布,将京东的大数据技术实践分享出来,为其他企业提供参考,同时,我们也欢迎更多的合作伙伴与我们一道,共同在大数据领域深入探索,为我国大数据产业的发展贡献力量。京东大数据技术白皮书 8 1 1 京东大数据的发展历程京东大数
11、据的发展历程 2010 年,京东集团启动了在大数据领域的研发和应用探索工作,正式组建京东大数据部,并确立了数据集中式的数据服务模式,成为企业大数据最早的实践者之一。大数据平台的发展是随着京东业务同步发展的,由原来的传统数据仓库模式逐步演变为基于 Hadoop 的分布式计算架构,如图 1 所示。技术领域覆盖 Hadoop、Kubernetes、Spark、Hive、Alluxio、Presto、Hbase、Storm、Flink、Kafka 等大数据全生态体系。目前拥有研发团队 500+人,累计获得技术专利 400+个。经过多年的持续投入,京东大数据已成为企业大数据的领跑者。目前已拥有集群规模
12、40000+服务器,单集群规模达到 7000+台,数据规模 800PB+,日增数据 1P+,日运行 JOB 数 100 万+,业务表 900 万+张。每日的离线数据日处理 30PB+,实时计算每天消费的行数近万亿条。图 1:京东大数据发展历程 京东大数据技术白皮书 9 京东大数据建设了全生态核心产品体系,是京东大数据业务的基础服务平台,为京东全业务生态提供一站式、自助式的大数据处理全流程解决方案。涵盖数据采集、存储、加工、分析、可视化、机器学习等专业化产品和服务,在保障数据安全的前提下,提供更可靠、高性能的服务,大幅降低大数据使用门槛,帮助京东大数据业务快速落地,助力京东实践以数据为驱动的业务
13、变革与发展。京东大数据技术白皮书 10 2 2 京东大数据的技术京东大数据的技术体系体系 京东大数据平台构建了完整的技术体系,通过一系列的技术方法实现了更可靠、高可用、具有京东自身特色的平台环境。如图 2 所示,平台覆盖 Hadoop、Kubernetes、Spark、Hive、Alluxio、Presto、Hbase、Storm、Flink、Kafka 等技术全栈,满足各类应用场景对数据平台的要求。图 2:京东大数据平台技术架构 2.12.1 数据采集和预处理数据采集和预处理 数据采集是大数据的基石。京东包含了电商所涉及的营销、交易、仓储、配送、售后等环节,每个环节都会产生大量的业务数据,同
14、时线上的业务日志系统和消息系统也会产生海量的数据。为了将上述结构化和非结构化数据进行采集,以便后续被数据应京东大数据技术白皮书 11 用类系统所使用,京东搭建了一套标准化的数据采集系统数据直通车。数据直通车为京东线上数据接入京东数据仓库提供了一套完整解决方案,为后续的查询、分发、计算和分析提供数据基础。直通车提供丰富多样、简单易用的数据采集功能,可满足离线计算、实时计算、集成分发等多种需求,并进行全程状态监控。根据不同业务场景对于数据时效性的不同要求,直通车支持离线数据采集和实时数据采集两种数据采集方式。离线数据采集主要支持的数据类型为:MySQL、SQL Server、Oracle、Mong
15、oDB、HBase、ElasticSearch、离线文件;实时数据采集主要支持的数据类型为:MySQL、日志、HTTP API、JMQ 等,并支持 API 接口实现实时数据上报。离线采集每天在零点后抽取前一天增量的数据(T+1),然后将 T+1 的数据与已有的全量数据合并形成新的全量数据,并将数据储存到目标表对应的分区中。图 3 展现了离线数据采集的完整架构:京东大数据技术白皮书 12 图 3:离线数据采集架构 数据直通车同样为实时数据采集提供了一套标准化的解决方案,实时数据采集目前支持 MySQL、SQL Server、Oracle、JMQ、日志等多种数据源类型。对于 MySQL 数据库,系
16、统参照数据库的主从复制模式,通过把关系型数据库的 Binlog 日志实时抓取并解析发送到实时数据总线(JDQ)内。实时采集按照数据库实例粒度抓取 MySQL 实例上的所有 Binlog,在程序内部进行 Binlog 的实时解析并过滤出所需要的库表,再以表粒度发送到不同的 Topic 上,方便下游用户进行业务表粒度的实时处理。JMQ 是京东内部线上系统的消息中间件服务,很多业务数据在落数据库之前都会经过 JMQ 系统在不同的业务系统之间进行传递。数据直通车可以把 JMQ 内的线上系统消息实时地同步到实时数据总线(JDQ)内,再由数据消费者按需处理,极大地提京东大数据技术白皮书 13 高了数据处理
17、系统的服务能力。京东内部所有系统的实时数据都会通过数据直通车实时采集到 JDQ 系统,统一由 JDQ 对下游业务需求提供实时数据消费服务。该方案帮助业务用户在技术层面屏蔽了实时数据采集的复杂度,并使得系统能够提供稳定的服务能力。2.22.2 流量数据采集流量数据采集 目前京东拥有丰富的入口平台,包括 PC 上看到的网站,无线客户端上访问的 H5 页面,移动端应用,微信手 Q 内的购物入口,京东自主研发或合作的智能设备,微信生态下的小程序,以及通过开普勒开放赋能给其他合作的 APP 等等。多样的数据展示形式使得不同的访问入口每天都有大量的用户访问,流量数据采集成为了京东大数据的一个重要环节。由于
18、入口平台实现原理不同,数据采集的诉求也不同,包括针对不同的事件,不同的场景有着特定的采集诉求等,以下我们将开始介绍在京东流量数据采集的相关技术。2.2.12.2.1 浏览器页面的采集浏览器页面的采集 2.2.1.12.2.1.1 采集流程采集流程 浏览器的日志采集,主要包含两大类日志:页面日志、点击及自定义日志,其中页面日志采集主要是指浏览器中页面被加载时的日志,而点击及自定义日志则是相关行为被触发后产生的日京东大数据技术白皮书 14 志,页面日志采集的流程如图 4 所示。图 4:页面日志采集流程 页面日志采集主要包含以下几个环节:(1)日志采集。网站的页面在上线前,会在页面内植入一段JS 的
19、采集脚本,当用户在访问网站的页面时,浏览器会进行加载、解析并执行 JS 脚本,JS 脚本在执行过程中会收集当前页面的一些信息、浏览器环境的相关信息、用户访问上下文的信息(例如第几次访问网站,当前访问页面的上一页面信息等等)以及业务特性的相关数据。(2)日志上报。JS 脚本执行在执行完毕后,会将所有收集到的信息拼装到一个请求内,通过日志请求将数据发送到日志服务器。一般情况下,在 JS 执行完成后就会立即向日志服务器发送。(3)日志接收。日志接收服务器在接收到客户端发送来的京东大数据技术白皮书 15 日志请求后,会向浏览器返回一个请求成功的响应。日志服务器在接收到上报的日志后,还会在服务器上执行业
20、务定制的特殊处理,对日志进行过滤筛选,然后再将日志存储在本地磁盘或者发送至实时平台中,供下游使用。(4)日志存储。目前采集到的日志通过两种方式进行存储:离线和实时。其中离线主要指服务器在接收到日志请求后,会将请求进行简单处理后落地到本地的磁盘中,然后通过日志抽取的方式将本地的日志及时抽取到相应的数据仓库中,实时则是将请求的消息体实时地分发到相应的实时处理平台中进行缓存,下游则根据该缓存的数据进行后续的应用。(5)日志解析。下游业务在拿到原始日志后,结合自己的业务需求对数据进行过滤筛选,同时结合统计分析的需求对数据进行加工处理。日志经过了以上的几个步骤后,我们就完成了用户的流量数据收集。2.2.
21、1.22.2.1.2 页面日志页面日志 网页页面是网站最基本的载体,通过页面的形式将希望展示的内容呈现给用户。为了更好地了解页面的访问情况,就需要我们采集页面的访问日志,有了页面日志后,我们可以统计分析页京东大数据技术白皮书 16 面的浏览量(pv)、页面的访客数(uv)、页面的加载时长、页面的停留时长等情况,也可以进行上下游的分析,访问用户的分析,为营销策略调整提供数据支撑。页面日志主要是在用户访问页面的时候进行采集的,目前主要采集了页面的基本信息、页面上下文、页面业务信息、页面的其他基本信息。2.2.1.32.2.1.3 点击及自定义日志点击及自定义日志 点击及自定义日志,主要用于收集用户
22、在网站中除浏览以外的日志,主要包括交互日志、曝光日志、自定义日志等。对于交互日志,例如用户通过鼠标的相关操作,移动、点击鼠标等操作与页面发生交互,页面会根据交互行为得到相应的结果,在用户触发这些交互行为时,会触发页面采集的脚本,从而将该部分交互日志采集到。曝光日志则是根据用户访问页面后,页面自发展示的一些其他内容形式,例如弹窗,轮播图等等形式。为了看到曝光之后用户对该内容的转化效果,就需要知道目前曝光的具体情况,例如在什么时间、曝光给了那些用户等等。自定义日志则是根据业务特性定制的一些特殊日志,例如采集页面停留的位置,用户在页面中的访问路径等等。点击及自定义日志的采集方法主要为用户特定标记的信
23、息采集,即在网页上预设采集脚本,当该网页的某个位置被点击或自定义的行为被用户触发了,则会产生相应日志并上报给日志服京东大数据技术白皮书 17 务器。随着触发条件被同时采集的还包括用户的基本信息、页面的基本信息、浏览器的基本信息,以及访问历史相关的信息等。点击及自定义日志的采集,更好地还原了用户在网站页面中的访问情况。有时为了更好地记录用户的访问行为,需要使用相应的标识用来做各种场景的区分,同时在采集代码植入时就标记下来,这样在用户的行为发生时,相应的日志就能够采集到更完善的信息,为我们后续的数据统计分析及业务应用提供了帮助。2.2.22.2.2 移动设备日志采集移动设备日志采集 随着用户对移动
24、设备的依赖越来越重,用户的访问也逐步向移动端迁移,移动端的数据采集也越来越重要。目前移动设备基本以APP应用的方式进行对外应用,针对APP应用的数据采集,京东提供了自主研发的 SDK 工具。该 SDK 可以收集用户在 APP的各种事件行为数据,收集 APP 的性能日志,也支持研发采集一些自定义状态,自定义事件等场景的数据。SDK 被预置在 APP应用内,用户在使用 APP 的过程中,如果触发了预先设计的场景,将会触发 SDK 的采集方法,进而生成相应的用户行为日志,并收集到 APP 应用内,并在合适的时机下上报的日志接收服务器。2.2.2.12.2.2.1 页面标识页面标识 网站页面在浏览器内
25、访问时,会有相应的页面链接,而用户京东大数据技术白皮书 18 在移动设备上访问时,由于移动端的特殊性,页面都是以接口的形式展示,但接口不直观,数据人员无法直接访问展示,直接判定该页面具体信息,因此需要针对页面接口进行重新标识。京东提供了相应的管理界面,可以备注具体接口对应的别名信息,接口描述信息,业务可以快速地查阅和使用。2.2.2.22.2.2.2 页面事件页面事件 用户在移动设备上留下各种事件行为,事件行为都是由后台实现的一些通用接口方法来实现,为了标识这些事件,并且以更简单易懂的信息来标识,我们提供了页面事件管理的功能,通过事件管理来标识具体的行为事件。研发通过埋点开发,将这部分事件行为
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 京东大 数据 技术 白皮书
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【宇***】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【宇***】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。