OrionX AI算力资源池化解决方案技术白皮书.pdf
《OrionX AI算力资源池化解决方案技术白皮书.pdf》由会员分享,可在线阅读,更多相关《OrionX AI算力资源池化解决方案技术白皮书.pdf(38页珍藏版)》请在咨信网上搜索。
1、OrionX AI 算力资源池化解决方案技术白皮书 OrionX AI 算力资源池化解决方案 技术白皮书 发布时间:2023 年 9 月 OrionX AI 算力资源池化解决方案技术白皮书 目录 1 引言.1 2 GPU 资源池化技术的演进.2 3 OrionX 产品概述.3 4 OrionX 产品优势.4 5 OrionX 软件架构.5 5.1 OrionX 的逻辑架构.5 5.2 OrionX 的功能组件.6 5.2.1 OrionX Controller(OC).6 5.2.2 OrionX Server Service(OSS).6 5.2.3 OrionX Client Runtim
2、e(OCRT).7 5.2.4 OrionX GUI(OG).7 5.3 OrionX 组件间通信.7 5.3.1 管理平面.8 5.3.2 数据平面.8 6 部署形态.10 6.1 OrionX 与容器云平台集成.10 6.2 OrionX 与 Kubernetes 集成.11 6.3 OrionX 与 KVM 集成.11 6.4 OrionX 与 VMware 集成.12 7 OrionX 应用场景.14 7.1 OrionX 支持大模型场景的典型应用.14 7.1.1 通过“化零为整”功能支持训练.14 7.1.2 通过“隔空取物”功能支持训练.15 7.2 OrionX 支持小模型场景
3、的典型应用.16 7.2.1 通过“化整为零”功能支持推理.16 7.2.2 通过“隔空取物”功能支持推理.17 7.3 OrionX 支持大/小模型场景的典型应用.18 7.3.1 通过“随需应变”功能支持训练/推理.18 7.3.2 通过“任务队列”功能支持训练/推理任务自动排队.19 7.3.3 通过“抢占”功能支持任务抢占资源.20 7.3.4 通过“显存超分”功能支持多任务叠加常驻.21 7.3.5 通过“双类资源池”功能支持物理/虚拟切换.22 7.3.6 通过“热迁移”功能支持 AI 任务平滑迁移.23 OrionX AI 算力资源池化解决方案技术白皮书 7.3.7 通过“多 A
4、rch”架构可同时支持 AI 计算与图形渲染.25 7.4 OrionX 支持多元异构算力芯片.28 8 性能测试.30 8.1 测试环境.30 8.2 测试结果.31 9 兼容性列表.33 OrionX AI 算力资源池化解决方案技术白皮书 图表目录 图表 1-1 全球人工智能市场规模走势图.1 图表 2-1GPU 资源池化技术演进图.2 图表 3-1ORIONX 架构图.3 图表 5-1ORIONX 逻辑架构图.5 图表 5-2 管理平面逻辑结构图.8 图表 5-3 数据平面逻辑结构图.9 图表 6-1ORIONX 与容器云平台集成.10 图表 6-2ORIONX 和 KUBERNETES
5、集成.11 图表 6-3 ORIONX 和 KVM 集成.12 图表 6-5ORIONX 和 VMWARE集成.13 图表 7-1 通过化零为整功能支持训练.15 图表 7-2 通过隔空取物功能支持训练.16 图表 7-3 通过化整为零功能支持推理.17 图表 7-4 通过隔空取物功能支持推理.18 图表 7-5 通过随需应变功能支持训练/推理.19 图表 8-1 模型推理测试结果.31 图表 8-2 模型训练测试结果.32 OrionX AI 算力资源池化解决方案技术白皮书 1 1 引言引言 当下,全球各国都在加速人工智能布局,将其作为战略性技术之一。作为较早发布人工智能战略的国家,中国政府
6、将人工智能技术视为产业变革的核心力量,人工智能不仅是技术创新,更是推动经济发展、社会进步、行业创新的重要驱动力。“十四五”规划纲要更是将新一代人工智能作为要攻关的七大前沿领域之一,鼓励加速人工智能前沿基础理论突破、专用芯片研发、深度学习框架等开源算法平台构建,促进学习推理与决策、图像图形、语音视频、自然语言识别处理等领域创新,加速人工智能与诸如大数据、物联网、边缘计算等数字信息技术的融合发展,促进产业优化升级、生产力整体跃升。德勤在 2020 上半年发布的全球人工智能发展白皮书预测数据表明:2025 年世界人工智能市场将超过 6 万亿美元;中国人工智能核心产业规模到 2020 年将增长至 16
7、00 亿元,带动相关产业规模超过一万亿元。图表 1-1 全球人工智能市场规模走势图 作为 AI 市场中的重要组成,以 GPU、FPGA 等为主的 AI 加速器市场发展也随之水涨船高。根据 IDC 中国加速计算市场报告,预计 2021 年人工智能加速服务器市场规模将达到 56.9亿美元,相比 2020 年增长 61.6%,到 2025 年,中国人工智能加速服务器市场将达到 108.6 亿美元,其五年复合增长率为 25.3%。与此同时,由于缺乏高效经济的 AI 算力资源池化解决方案,导致绝大部分企业只能独占式地使用昂贵的 AI 算力资源,带来居高不下的 AI 算力使用成本;由于缺少对异构算力硬件支
8、持,用户不得不修改 AI 应用以适应不同厂商的 AI 算力硬件。这会加剧 AI 应用开发部署复杂性、提高 AI 算力投入成本并导致供应商锁定。OrionX AI 算力资源池化解决方案技术白皮书 2 2 GPU 资源池化技术的演进资源池化技术的演进 GPU 资源池化技术从初期的简单虚拟化,到资源池化,经历了四个技术演进阶段。简单虚拟化简单虚拟化。将物理 GPU 按照 2 的 N 次方,切分成多个固定大小的 vGPU(Virtual GPU,虚拟 GPU),每个 vGPU 的算力和显存相等。实践证明,不同的 AI 模型对于算力、显存资源的需求是不同的。所以,这样的切分方式,并不能满足 AI 模型多
9、样化的需求。任意虚拟化任意虚拟化。将物理 GPU 按照算力和显存两个维度,自定义切分,获得满足 AI 应用个性化需求的 vGPU。远程调用远程调用。AI应用与物理 GPU 服务器分离部署,允许通过高性能网络远程调用GPU资源。这样可以实现 AI 应用与物理 GPU 资源剥离,AI 应用可以部署在私有云的任意位置,只需要网络可达,即可调用 GPU 资源。资源池化资源池化。形成 GPU 资源池后,需要统一的管理面来实现管理、监控、资源调度和资源回收等功能。同时,也需要提供北向 API,与数据中心级的资源调度平台对接,让用户在单一界面,就可以调度包括 vGPU 在内的数据中心内的各类资源。图表 2-
10、1GPU 资源池化技术演进图 OrionX AI 算力资源池化解决方案技术白皮书 3 3 OrionX 产品概述产品概述 趋动科技的趋动科技的 OrionX(猎户座)(猎户座)AI 算力资源池化解决方案已经实现了上述四个阶段的技术算力资源池化解决方案已经实现了上述四个阶段的技术功能,可以为用户提供功能,可以为用户提供 GPU 资源池化的整体解决方案。资源池化的整体解决方案。OrionX 帮助客户构建数据中心级 AI 算力资源池,使用户应用无需修改就能透明地共享和使用数据中心内任何服务器之上的 AI 加速器。OrionX 不但能够帮助用户提高 AI 算力资源利用率,而且可以极大便利用户 AI 应
11、用的部署。图表 3-1OrionX 架构图 OrionX 通过软件定义 AI 算力,颠覆了原有的 AI 应用直接调用物理 GPU 的架构,增加软件层,将 AI 应用与物理 GPU 解耦合。AI 应用调用逻辑的 vGPU,再由 OrionX 将 vGPU需求匹配到具体的物理 GPU。OrionX 架构实现了 GPU 资源池化,让用户高效、智能、灵活地使用 GPU 资源,达到了降本增效的目的。OrionX AI 算力资源池化解决方案技术白皮书 4 4 OrionX 产品优势产品优势 OrionX 通过构建 GPU 资源池,让企业内的 AI 用户共享数据中心内所有服务器上的 GPU算力。AI 开发人
12、员不必再关心底层资源状况,专注于更有价值的业务层面,让应用开发变得更加便 捷。OrionX 产品有如下优势:提高利用率提高利用率 o 支持将 GPU 切片为任意大小的 vGPU,从而允许多 AI 负载并行运行,提高物理 GPU 利用率。o 提高 GPU 综合利用率多达 3-10 倍,1 张卡相当于起到 N 张卡的效果,真正做到昂贵算力平民化。高性能高性能 o 相比于物理 GPU,OrionX 本地 vGPU 性能损耗几乎为零,远程 vGPU 性能损耗小于 2%。o vGPU 资源隔离,并行用户无资源互扰。轻松弹性扩展轻松弹性扩展 o 支持从单台到整个数据中心 GPU 服务器纳管,轻松实现 GP
13、U 资源池的横向扩展。o 全分布式部署,通过 RDMA(IB/RoCE)或 TCP/IP 网络连接各个节点,实现资源池弹性扩展。灵活调度灵活调度 o 支持 AI 负载与 GPU 资源分离部署,更加高效合理地使用 GPU 资源。o CPU 与 GPU 资源解耦合,两种服务器分开购买、按需升级、灵活调度,有助于最大化数据中心基础设施价值。全局管理全局管理 o 提供 GPU 资源管理调度策略。o GPU 全局资源池性能监控,为运维人员提供直观的资源利用率等信息。对对 AI 开发人员友好开发人员友好 o 一键解决 AI 开发人员面临的训练模型中 GPU/CPU 配比和多机多卡模型拆分问题,为算法工程师
14、节省大量宝贵时间。OrionX AI 算力资源池化解决方案技术白皮书 5 5 OrionX 软件架构软件架构 5.1 OrionX 的逻辑架构 一个典型的 OrionX GPU 资源池的逻辑架构中包含了 OrionX Controller(OC)、OrionX Server Service(OSS)、OrionX Client Runtime(OCRT)、和 OrionX GUI(OG)等功能组件。OrionX 的各功能组件可以根据用户环境需求被部署在单服务器上,也可以被分布式地部署在数据中心的多个物理机、虚拟机或者容器环境中。在分布式的部署环境中,各功能组件可以通过多种类型的网络建立连接,从
15、而把数据中心的 GPU 资源管理起来,形成一种可以被全局共享的计算资源,对 AI 应用提供可远程访问的、可灵活切分的、可聚合的弹性 GPU 算力。OrionX 的逻辑架构如下图所示。图表 5-1OrionX 逻辑架构图 CUDA(Compute Unified Device Architecture)是由 Nvidia 公司定义且公开推广、维护的一种 GPU 编程接口。从 2007 年推出之后,经过十几年生态培育,已经成为 GPU 编程的一个事实标准。大部分流行的 AI 框架,例如 TensorFlow、PyTorch、MXNet 和 PaddlePaddle都是基于 CUDA 编程接口开发。
16、OrionX AI 算力资源池化解决方案技术白皮书 6 OrionX 在管理物理 GPU 之后,通过模拟 CUDA 标准接口,为各种 AI 应用提供一个与 Nvidia CUDA SDK 接口功能一致的运行环境,从而使得 AI 应用透明无感知地运行在 OrionX GPU资源池之上。OrionX 不仅在单服务器上模拟了 CUDA 标准接口,并且通过分布式部署各功能组件,能够提供分布式的 CUDA 运行环境。5.2 OrionX 的功能组件 5.2.1 OrionX Controller(OC)OrionX Controller 是 GPU 资源池的核心管理调度模块,其他所有 OrionX 的功
17、能组件都直接或者间接通过网络连接到 OrionX Controller,并与其保持信息同步。为了实现 OrionX GPU资源池的统一管理以及资源调度,节点 IP 地址、物理 GPU 信息、虚拟 GPU 信息以及应用任务信息等都会汇总至该组件。一个 OrionX GPU 资源池可以只部署一个 OrionX Controller。为了提高 OrionX 的可靠性,可以进行 2+1 冗余备份。OrionX Controller 提供如下功能:各个分布式功能组件的服务注册、服务发现功能。弹性虚拟 GPU 的调度分配功能。多副本高可用的元数据存储和管理。License 管理。提供运维所需要的各种 Re
18、st API。5.2.2 OrionX Server Service(OSS)OrionX Server Service 发现并管理物理节点上的 GPU 资源,同时把物理 GPU 的计算能力通过 OrionX 的高性能私有协议提供给数据中心内的各个物理节点,以及各个物理节点上的虚拟机、容器。OrionX Server Service 部署在 OrionX 资源池内的每一个节点上,包括 GPU 节点和应用所在的节点。OrionX Server Service 提供如下功能:发现和管理物理 GPU 资源。OrionX AI 算力资源池化解决方案技术白皮书 7 把物理 GPU 资源抽象成弹性的 vG
19、PU。执行 AI 应用的 GPU 计算任务。支持虚拟机、容器的网络隔离。5.2.3 OrionX Client Runtime(OCRT)OrionX Client Runtime 是一套兼容 Nvidia CUDA 编程环境的运行环境,模拟了 CUDA 的运行时接口。当AI应用在使用Nvidia GPU进行计算的时候,会自动调用OrionX Client Runtime。由于 OrionX Client Runtime 提供和 Nvidia GPU 兼容的 CUDA 接口,因此应用无需修改,可以透明无感知地运行在一个虚拟的 GPU 环境下。OrionX Client Runtime 部署在每
20、一个应用环境下,替代原有的 Nvidia CUDA SDK。OrionX Client Runtime 提供如下功能:兼容 CUDA 接口。自动完成虚拟 GPU 资源的申请、释放、弹性伸缩等功能。支持虚拟机、容器和宿主机的网络隔离。5.2.4 OrionX GUI(OG)OrionX GUI 给运维提供一个友好的 GUI 界面,方便管理员对 OrionX 整体资源池进行全面管理。OrionX GUI 提供如下功能:分级的运维账号登录与管理。查看各组件的部署拓扑以及详情。多维度、多角度查看资源池的资源使用情况。细粒度管理资源池内的资源。日志、监控及告警功能设置。5.3 OrionX 组件间通信
21、OrionX 的各个功能组件通过管理平面网络和数据平面网络进行通信,共同完成 GPU 资源池的管理以及 GPU 资源的调度等功能。OrionX AI 算力资源池化解决方案技术白皮书 8 5.3.1 管理平面 在部署 OrionX 时,使用基于 TCP/IP 网络的管理平面,来承载整个系统的管理工作。通过管理网络,分布在各个节点的功能组件都保持和 OrionX Controller 同步。管理平面逻辑结构如下图所示。图表 5-2 管理平面逻辑结构图 通过私有的同步协议,分布式部署的各个功能组件具有如下特点:OrionX Controller 支持多副本、高可用的部署模式。各个功能组件启动的次序无
22、要求。当某一个功能组件从错误中恢复之后,可以自动同步到正确的状态。5.3.2 数据平面 在应用运行的过程中,应用所在环境和 GPU 物理节点之间的数据传输使用的是 OrionX 的数据面。该数据面支持多种后端数据传输载体,包括 TCP/IP 以太网络、RoCE RDMA、Infiniband RDMA、Share Memory 等。数据面具有如下的特点:高带宽、低延迟。同时支持多种传输协议,根据优先级自动使用高性能的传输方式。支持虚拟机、容器和宿主机之间的 TCP/IP 网络隔离。OrionX AI 算力资源池化解决方案技术白皮书 9 图表 5-3 数据平面逻辑结构图 OrionX AI 算力
23、资源池化解决方案技术白皮书 10 6 部署形态部署形态 OrionX 的各个组件,支持直接部署在裸金属服务器上,即安装操作系统后,直接以 Binary形式部署,也支持容器化部署。OrionX 具备适配多种 Linux 操作系统和云平台的能力,因此,OrionX 具有多样化的部署形式。OrionX 支持 CentOS、Ubuntu、Debian 等 Linux 发行版本,同时支持基于 KVM 的虚拟机云平台和基于 Docker 的容器云平台。尤其是支持原生容器,并实现了和 Kubernetes 的平滑对接。6.1 OrionX 与容器云平台集成 OrionX 支持原生容器,各个组件都可以通过容器
24、镜像方式部署。在容器环境中,客户只需要使用 OrionX 组件提供的启动脚本,就可以一键完成 OrionX 的组件安装,轻松实现 GPU资源池化。OrionX 的容器部署方式,将 GPU Drivers、CUDA、CUDNN 和 NCCL 等软件栈都下沉到宿主机上,容器内部只需要安装 OrionX Client Runtime 和机器学习框架,即可运行 AI 应用,大大简化了客户算法工程师运维、管理 AI 基础架构的工作。图表 6-1OrionX 与容器云平台集成 OrionX AI 算力资源池化解决方案技术白皮书 11 6.2 OrionX 与 Kubernetes 集成 OrionX 为
25、Kubernetes 提供两个插件,实现与 K8S 的集成对接。集成后,系统管理员只需要在 K8S 中,即可完成对 GPU 资源池中 vGPU 资源的配置和调度管理。并且,允许系统管理员通过单一接口调度全部数据中心资源,实现 SDDC(Software Defined Data Center,软件定义的数据中心),这样就简化了运维工作。OrionX 为 Kubernetes 提供的两个插件是:OrionX Kubernetes Device Plugin o 通过和 OrionX Controller 通讯,获取 OrionX GPU 资源池信息。o 通过 Kubernetes 定义的 Dev
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- OrionX AI算力资源池化解决方案技术白皮书 AI 资源 化解 方案 技术 白皮书
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【宇***】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【宇***】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。