新一代人工智能基础设施白皮书.pdf

上传人：Stan****Shan

文档编号：1266364

上传时间：2024-04-19

格式：PDF

页数：64

大小：3.24MB

《新一代人工智能基础设施白皮书.pdf》由会员分享，可在线阅读，更多相关《新一代人工智能基础设施白皮书.pdf（64页珍藏版）》请在咨信网上搜索。

1新一代人工智能基础设施白皮书中国智能算力产业联盟人工智能算力产业生态联盟商汤科技智能产业研究院3“商汤成立之初，我们认为 AI 产业在未来一定会形成分化。在分化的过程中，整个 AI 基础设施上的各个要素，以一种更加高效、低成本的方式，被提供给更多的人使用，从而降低 AI 基础设施的构建成本和使用门槛。”杨帆，商汤联合创始人、大装置事业群总裁4目录关键发现.6导语：AI 新基建开启“三浪变革”.8一、大模型、生成式 AI 推动 AI 2.0 时代到来.121.生成式 AI 推进产业规模化，AI 无处不在愿景加速实现.132.产业链成熟分化，基础设施成为 AI 产业发展基座和保障.16二、AI 2.0 时代对 AI 基础设施提出了全新要求.191.传统计算基础设施无法满足大模型、生成式 AI 的新要求.192.数据质量和效率决定大模型的高质量发展之路.223.大模型需要全新的 AI 平台服务模式.23三、新一代 AI 基础设施的定义、特点和价值.251.新一代 AI 基础设施的主要特点.272.新一代 AI 基础设施创造社会价值.293.新一代 AI 基础设施赋能企业享受生成式 AI 红利.31四、新一代 AI 基础设施厂商格局与评估.331.云计算、AI 原生、硬件系统三类厂商塑造市场格局.332.评估体系：产品能力、战略愿景与市场生态.363.商汤科技评估结果：新一代 AI 基础设施市场领导者.394.SenseCore 商汤大装置技术发展优势.415.SenseCore 商汤大装置业务布局优势.45五、新一代 AI 基础设施实践案例.481.大模型训练.4852.生成式 AI 应用.513.AI 专家服务.544.智算中心建设与运营.55六、建议.59结语：新一代人工智能基础设施的“经济规律”.616关键发现1.2023 年是人工智能产业发展的分水岭，以大模型、生成式 AI 为发展里程碑的技术革新，推动着人工智能发展进入全新的 2.0 时代，人工智能由之前点状、创新应用，逐步规模化发展赋能企业业务流程各个环节，并逐步向产业深水区发展，推动产业链分化成熟，需要全新的基础设施来实现更好的支撑。2.大模型和生成式的发展对算力、算法平台、数据提出全新要求，传统以 CPU为中心的云计算基础设施已无法满足。不仅需要大规模、高性能、高稳定性算力资源，智能化数据管理流程，以及高效普惠 AI 开发平台；还要打造体系化工程系统保证基础设施面向大模型训练、生成式 AI 应用落地的新目标。3.Model as a Service（MaaS）成为新一代 AI 基础设施的核心，其本质是通过云服务向开发者和企业提供更高效的大模型服务。MaaS 加速了 AI 应用部署的周期，提升了创新的迭代速度，降低了企业应用大模型服务的多方面成本，推动了 AI 与各行业的深度整合。通过纳入开源和闭源大模型，MaaS还助力于构建成熟的生态系统，促进生成式 AI 应用的规模化落地。4.新一代 AI 基础设施不是传统云的 AI 化，两者具有明显定位和发展路径的差别。新一代 AI 基础设施主要面向产业用户，为大模型训练、区域行业及应用孵化创新提供 AI 基座。新一代 AI 基础设施跟随产业布局，采用“大中心+节点”模式，构建起覆盖整个区域的算力网络，并通过建（设）运（营）联动促进区域经济的一体化和智能化发展。75.新一代 AI 基础设施为政务服务、产业升级和科研创新等领域带来了前所未有的社会价值。将原本分散、碎片化的政务应用，通过“一模通办”为政务服务提质增效。将加快推进传统产业上下游各个环节的智能化转型，催生新业态、新模式的不断涌现。加速科学实验的自动化和智能化，激发人工智能驱动科学研究（AI for Science）的新范式。6.本白皮书提出业界首个“新一代人工智能基础设施评估体系”，通过产品技术、战略愿景、市场生态三大维度、十二个评估指标，对 AI 基础设施厂商进行定性和定量的全面评估。SenseCore 商汤大装置，成为市场领导者，在各个评估指标的得分超过厂商平均分，并在市场响应、市场认知、产品战略、工程化建设四个评估指标拿到满分。7.SenseCore 商汤大装置在产品服务能力呈现出较强的产品实力和技术积累，不仅超前布局了算力基础设施，还通过布局 MaaS 平台，在自身大模型业务的加持下，形成了整套 AI 基础设施产品架构，满足客户大模型训练、生成式 AI 应用的大规模落地需求。8.新一代人工智能基础设施将会通过支持大模型的爆发式发展，带来知识工程的生产力变革，重构软件生态，颠覆原有数字经济霸主，并随着本身的技术革新和突破，实现边际成本持续下降，边际效益持续增长等特征，进而实现AI 算力成本的持续下降，真正带来普惠 AI。8导语：AI 新基建开启“三浪变革”第一浪是“知识生产力变革”，大模型是知识工程的生产力变革，天然具有跨领域知识的连接性。上一次知识革命是 11 世纪的毕昇发明的泥活字印刷术、15 世纪的古登堡发明的铅活字印刷术，让人类千年历史中积累的庞大知识工程通过印刷书籍形式推广传承，知识从手工抄写到活字印刷速度提升了 118 倍，自此浩瀚的知识源源不断地从印刷作坊以令人惊叹的速度向全球传播，堪称中世纪的“知识互联网”。在比尔盖茨的未来之路中提到，在谷登堡印刷革命之前，整个欧洲大陆大约只有 3 万册书，几乎都是圣经或圣经评注性著作，而到了1500 年，各类题材的图书猛增到 900 多万册。各种传单和其他印刷物影响了政府、宗教、科学以及文学。宗教精英圈子以外的人士第一次有机会接触到书面信息。据多方研究数据表明，大型语言模型显著提高知识学习速度、知识检索速度、知识传播速度、知识推荐准确性，具有跨语言、跨学科领域、跨信源的独特优势。在人机协同模式下，大型语言模型将人类科学论文的阅读时间缩短 40%，知识搜索时间缩短 20%，而这仅仅是 ChatGPT 出现一周年的“起点”，鉴于大型语言模型远超人类的超高速学习能力，预计将在 2026 年学习完所有人类历史上的高质量文本数据1。人类的知识革命大幕刚刚开启，高新科研、三大类产业、公共服务的知识型工作范式正在遵循“计算-数据-模型-服务”链条重构。第二浪是“软件变革”，每次软件大革新，都会诞生新的超级平台，颠覆原数字经济霸主，从 Windows、AppStore 到 GPTs 都不例外，当前智能编程助手改变代码生产流程，大语言模型成为新一代 AGI 服务入口、软件调度枢纽。1Epoch AI Research 研究机构预测，大模型对数据的需求正在飞速增加，人类历史上可用于训练的高质量文本将在2026 年“耗尽”。920 世纪 90 年代，未来学家雷库兹韦尔发现指数级发展的规律：“一旦技术变得数字化，即被编辑为 0 和 1 表示的计算机代码，它就能够脱离摩尔定律的舒服，开始呈指数级加速发展。”所以数字经济中每一代超级平台企业都是软件创新型企业。中国程序员人数位居全球第二，世界上最好的开发语言应是中文，例如商汤科技发布的“代码小浣熊”Raccoon 智能编程助手，覆盖软件需求分析、架构设计、代码编写、软件测试等环节，支持中文、英文注释生成代码、跨编程语言翻译、单元测试用力生成、代码修正（改 Bug）、代码重构、编程技术知识问答，在 Python、Java、C、C+、Go、SQL 等 30 多种主流编程语言，以及 VS Code、IntelliJ IDEA 等主流集成开发环境(IED)上，提升开发者编程效率超过 50%，并在以 71%的一次通过率刷新 HumanEval 测试集成绩（GPT-4 一次通过率 67%）。从此人类程序员将 80%的代码量交由语言大模型编写，人类开发专家的时间和精力逐步转移到更具创新性和高价值的工作中，商汤称其为软件 2.0 时代的“新二八定律”（见图 1）。另一方面，多篇权威论文显示，大型语言模型能够面对复杂任务，灵活自动实现多软件串行、多模型协同组合，例如 AI Agent、MoE 架构（Mixture-of-Experts）、综合型智能客服、GitHub Copilot 等，能在日常使用中跨模型共享成果、快速学习迭代、增强安全性与伦理性保障。在庞大 AI 算力规模、训练数据集基础上，新一代 AI 原生软件应用，导致“传统软件智能化，智能软件枢纽化”全面普及，尤其是那些能满足目前还难以预知需求的新工具，新一代青少年将在新兴 AI 软件与 MaaS 模型化创新思维逻辑上成长起来，并将新型生产力软件带入办公室与家庭。10图 1：大语言模型智能编程助手，赋能软件开发提效降本第三浪是“AI 计算变革”，在大型语言模型的 Scaling Law（规模定律）指数级算力需求，与线性增长的区域基建投入矛盾下，AI 算力基础设施将迎来大量技术工程创新，持续降本增效，普惠优势让 AI 真正成为赋能千行百业的通用型基础设施，同时“百模大战”变为 AI 产业专业化分工。据 AI Now计算能力和人工智能报告指出，早期 AI 模型算力需求是每 21.3 个月翻一番，而2010 年深度学习后（小模型时代），模型对 AI 算力需求缩短至 5.7 个月翻一番，而 2023 年，大模型需要的 AI 算力需求每 1-2 个月就翻一番，摩尔定律的增速显著落后于社会对 AI 算力的指数级需求增长速度，即“AI 超级需求曲线”遥遥领先传统架构的 AI 算力供给，带来了 AI 芯片产能瓶颈、涨价等短期市场现象。CSET(Center for Security and Emerging Technology)在 AI and Compute报告中预测：“在计算价格没有任何变化的情况下，尖端模型成本预计将在 2026年 6-11 月超过美国 GDP（见图 2）。”未来学家雷库兹韦尔认为，从 1890 年到现在，人类计算设备的（单位时间）的运算能力一直在成倍增强，每当一项指数型技术（例如符合摩尔定律的芯片技术）的实用性达到极限时，就会有另一项11技术取而代之。所以，针对大模型高昂的训练成本、有限的 GPU 供应量、芯片间通讯瓶颈的核心挑战，各国均采用大规模智能基建资源投入，并在 AI 芯片、智能算力集群、大模型架构、专用模型加速等技术栈环节创新突破，相信在未来3 年通过一系列基础设施的技术革新，持续降低 AI 计算整体成本（采购、建设与运营），释放出各行各业的生成智能全民应用创新能力，尤其是推理算力成本下降，对中国 AI 2.0 的大市场、大用户量至关重要。同水电煤等平价公共服务一样，人人用得起 AI 算力，人人训得起 AI 数据，人人做得好 AI 模型。图 2：大模型算力的成本压力（来源：CSET）Note:The blue line represents growing costs assuming compute per dollar doubles every four years,with errorshading representing no change in compute costs or a doubling time as fast as every two years.The red linerepresents expected GDP at a growth of 3 percent per year from 2019 levels with error shading representinggrowth between 2 and 5 percent.12一、大模型、生成式 AI 推动 AI 2.0 时代到来2023 年是人工智能发展的分水岭，大模型、生成式 AI 的发展带动了人工智能领域的范式转换，AI 2.0 时代已经来临。在此之前，人工智能通过模式检测或遵循规则来帮助分析数据和做出预测，更像是一种“分类器”，而 AI 2.0 时代则开启了新阶段：基于大模型的生成式 AI。生成式 AI 可以通过数据训练进而模仿人类的创造过程，将人工智能从传统的“分类器”进化成“生成器”。这样本质上的变化，让 AI 发展到了一个全新的时代（见图 3）。Gartner 预测，到 2027年，高速增长的生成式 AI 将会贡献全球人工智能支出的 42%，规模将超过 1800亿美元，2023 年到 2027 年的复合增长率高达 169.7%2。另外，作为生成式 AI 发展的基础，大模型也在高速发展。IDC 数据显示，截止 2023 年 11 月底，中国市场发布的大模型已经超过 300 个。生成式 AI 的颠覆性潜能得到越来越多的企业认可，企业不再追问何为生成式 AI，而是希望了解生成式 AI 的投入能带来哪些具体业务价值。Gartner 预测，到 2026 年，超过 80%的企业将使用生成式 AI 的 API 或模型，或在生产环境中部署支持生成式 AI 的应用，而在 2023 年初这一比例不到 5%3。技术变革带动场景拓展，生成式 AI 正在从热烈讨论走向应用落地，其价值创造潜力极为惊人，麦肯锡预测，生成式 AI 有望为全球经济贡献约 7 万亿美元的价值，并将 AI 的总体经济效益提高 50%左右；中国则有望贡献其中约 2 万亿美元，将近全球总量的 1/34。2“Forecast Analysis:Artificial Intelligence Services,2023-2027,Worldwide”,Gartner,October 20233“TopStrategic Technology Trends for 2024”,Gartner,October 20234生成式 AI 在中国：2 万亿美元的经济价值，麦肯锡，2023 年 9 月13图 3：生成式 AI 驱动 AI 市场规模化发展，并带来全新经济效益（来源：Gartner、麦肯锡、IDC）1.生成式 AI 推进产业规模化，AI 无处不在愿景加速实现生成式 AI 呈爆炸式增长，使 AI 由之前的点状、创新应用，逐步开始在业务流程的各个环节应用部署，企业在积极探索相关价值，以期增强自身业务的竞争优势。麦肯锡调研显示，已有 1/3 的企业受访者表示，其所在组织会在至少一项业务职能中经常使用生成式 AI 应用（见图 4）。企业通过以下一系列举措，不断推动 AI 无处不在的愿景实现：加强生成式 AI 领域的投资，应用部署获得持续动力。自从 ChatGPT 发布以来，企业在 ICT 领域的投资发生了调整与变化，为了更好的跟上此轮技术变革所带来的潜在红利，企业将更多的 ICT 预算投入到生成式 AI 领域，并将会从中获得客观的收益。IDC 调研显示，已有 24%的中国企业在生成式 AI14上投入资金，69%企业正筛选潜在应用场景或开始测试和概念验证，到 2026年，中国 40%的企业将掌握生成式 AI 的使用，共同开发数字产品和服务，从而实现与竞争对手相比两倍的收入增长。改变现有 AI 战略，驱动生成式 AI 覆盖公司业务全流程。企业组织正在改变自身的人工智能战略，围绕人工智能战略的愿景、路线图、用例、治理、以及相应的人才都发生了全面的变化。AI 1.0 时代，企业组织在制定一个典型的人工智能战略更多考虑的是一个长远的规划，并且碎片化的布局，这些随着 AI 2.0 时代生成式 AI 爆发增长所带来的日新月异而发生彻底改变，短期目标、快速行动并逐渐覆盖关键业务成为人工智能战略的新内核，更关键的转变则是用例方面，从之前的预测分析、自动化应用场景，转向内容生成和创造。同时，由于生成式 AI 将会成为不可或缺的生产力工具，培训每个员工如何负责任地使用生成式 AI 工具也成为重点（见图 5）。拥抱生成式 AI，促使 AI 与员工实现协同创新。生成式 AI 扩大了人类的专业知识、创造力和知识范围，提高了人类工作的效率。更关键的是，生成式AI 使得新洞察、新模式、新能力的创造变得更为清晰，创新的本质是可能性的不断组合，确定最有前景的组合项后，对其进行改进直到实现。人类团队只能探索创新解决方案的一小部分，而生成式 AI 可以帮助人类能够利用更多变量在短时间内探索更多解决方案可能性，并且能够以最小化成本撬动更多价值的产出。Gartner 预测，到 2026 年，将会有超过 1 亿人将与“机器人同事（合成虚拟同事）”协同工作5。5“The Future of AI:Reshaping Society”,Gartner,July 202315图 4：各地区、行业和资历级别的受访者表示，他们已经在使用生成式 AI（来源：麦肯锡）图 5：AI 2.0 时代，企业需要重新制定 AI 战略162.产业链成熟分化，基础设施成为 AI 产业发展基座和保障企业积极拥抱大模型、生成式 AI 的态度，加速了 AI 应用逐步向产业深水区发展，面临千变万化的业务需求和标准，为了更好的应对不同的业务诉求，AI产业链将会一步成熟分化，上下游的产业角色和环节不断增多，开始需要全新的基础设施来实现更好的支撑，其带来的影响如下：智能算力成为 AI 产业发展的关键支撑要素。大模型训练趋势企业将更多地使用 AI 就绪的数据中心设施或 GPU 集群，从而缩短部署时间，降低设施的长期投资成本。适合大模型训练的智能算力已经成为算力增长的主要动力。IDC 预测，2022 年中国智能算力规模达 259.9 EFLOPS，2023 年将达到414.1 EFLOPS，预计到 2027 年将达到 1117.4 EFLOPS（见图 6）。2022-2027 年期间，中国智能算力规模年复合增长率达 33.9%，同期通用算力规模年复合增长率为 16.6%6。人工智能生产范式转向以大模型为核心的开发路径。在 AI 1.0 时代，AI 应用的开发处于“精耕细作”的阶段，开发人员基于场景化的数据集用明确的代码去表达程序执行的逻辑，并不断基于业务发展而进行迭代，而随着业务场景从通用场景发展到长尾、碎片场景，该模式则逐渐显现出开发成本高，精确度不佳等一系列挑战，在某种程度上，反而限制了 AI 产业的进一步发展。而在 AI 2.0 时代，在基模型+人工反馈的强化学习相结合的加持下，人工智能应用的开发进入“规模化”阶段，体现出“大力出奇迹”的特色。面向业务逻辑对基模型进行微调，辅助提示词工程来开发相应的生成式 AI 应用，进而更快速、低成本、高精度的覆盖更多业务场景，这使得 AI 产业进6中国人工智能计算力发展评估报告，2023-2024，IDC，2023 年 12 月17入了一个高速发展且无处不在的全新时代（见图 7）。作为新的生产力工具，生成式 AI 应用发展进入大航海时代。伴随基模型的高速成熟化发展，生成式 AI 应用也迎来爆发式增长（见图 8）。最早，以ChatGPT、Midjourney 为代表的文生文、文生图应用推向市场并获得高速增长的用户群体。随后，音频生成、视频生成、多模态生成类的应用，以及面向不同行业领域或用户群体的工具类应用，如代码生成、Copilot、数字人、营销工具、聊天助手等，不断推向市场。2023 年 11 月，OpenAI 推出GPTs 并计划打造 GPT Store，让用户无需代码，结合自己的指令、外部知识和能力创建自定义版本的应用，这种客制化的模式和清晰的商业化模式，让生成式 AI 应用的开发主体由数量不多的 AI 厂商走向海量 AI 开发者7。图 6：中国智能算力规模及预测，2020-2027，基于 FP16 计算，EFLOPS（来源：IDC）7“Introducing GPTs”,OpenAI,November 202318图 7：AI 2.0 时代，人工智能的生产范式发生了根本性改变图 8：AI 2.0 时代，人工智能产业迎来更加繁荣的“大航海时代”（来源：IDC）19二、AI 2.0 时代对 AI 基础设施提出了全新要求进入 AI 2.0 时代，传统针对移动互联时代应用、以 CPU 为中心的云计算基础设施，无法满足大模型训练、生成式 AI 应用爆发所带来的挑战，这些新的挑战对 AI 基础设施的关键环节都提出了全新的要求，包括算力、算法平台、数据，以及围绕三个环节的工程系统建设。1.传统计算基础设施无法满足大模型、生成式 AI 的新要求大模型训练、生成式 AI 应用不仅对 GPU 或异构计算的需求大幅增加，传统CPU 算力已经无法满足；还对 GPU 集群的计算效率、稳定性等方面的提出诸多要求，算力不是一个简单的堆砌，而是要转为大模型而优化的复杂的系统性工程，再加上巨大的投资，如何保持稳定性和高效率也成为关键，展开来看：以GPU为核心的AI算力需求爆发性增长。以OpenAI为例，训练一次 1750亿参数的 GPT-3 模型大概需要的算力约为 3640PFlops-day，共使用了1024 块 A100(GPU)训练 34 天。随着模型参数量不断升级，AI 算力需求也在持续递增。过去四年，大模型参数量以年均 400%复合增长，AI 算力需求增长也超过 15 万倍，远超摩尔定律8。例如，GPT-4 参数量大约是 GPT-3的 500 倍，用了约 2 万-3 万张 A100,训练 1 个月左右的时间。除大模型训练外，随着生成式 AI 应用爆发，高并发推理也将进一步推高算力需求，未来或将远远超过训练阶段的算力当量（见图 9）。高性能和高效率成为算力基础设施的关键。为了更好支持大模型训练，多机多卡组成大集群分布式训练成为必选。但大集群不等于大算力，在分布式训8WOT 全球技术创新大会：创新不止，实战为王，东方财富网，2023 年 6 月20练下集群中由于网络通信或数据缓存等问题都会造成大模型训练效率降低。例如，一般千亿、万亿参数规模的大模型，训练过程中通信时间占比最高可达 50%9。如果通信互联不好，会影响大模型训练效率，也会限制算力集群的进一步扩展，这就要求集群具备高速互联的网络连接。并行训练要求网络基础设施具备高度可靠，一条链路的负载不均导致网络堵塞，就会成为系统短板，影响到数十个甚至全部 GPU 节点信息同步（见图 10）。此外，大模型训练过程中会通过 Checkpoint 来保存模型参数（权重），进而实现大模型训练的连续性。但是，传统训练方式下当模型参数量大时，Checkpoint写入时间会变久，导致导致 GPU 利用率降低。例如，1750 亿参数的 GPT-3模型，假设文件系统写入速度为 15GB/s，完成一次 Checkpoint 需要 2.5分钟，也就相应造成 2.5 分钟的资源浪费。因此，支撑大模型训练的算力资源，不仅需要在集群硬件层面提升，还需要结合软件层面进行优化设计。独占式、大规模、长时间训练对 GPU 集群稳定性提出更高要求。大模型训练需要长时间占据规模庞大的 GPU 集群，这导致单个节点发生故障就使得整个训练中断，且故障原因和位置难以迅速界定。以 Meta 的 OPT-17B 训练为例，理论上在 1,000 个 80G A100 上训练 3,000 亿个单词，需要 33 天，而实际训练却用了 90 天，期间出现了 112 次故障，其中主要是硬件故障，导致手动重启 35 次，自动重启约 70 次10。节点故障不仅造成训练时间被拉长，也对算力资源带来了巨大浪费。因此，集群训练稳定性非常重要，对集群建设提出更高要求。例如，集群是否具备故障实时监测、断点续训、故障节点自动隔离等能力，以及在故障发生时能否快速定位、迅速恢复等。9大模型需要大算力，但光靠 GPU 也不行，21 世纪经济报道，2023 年 6 月10如果没有 AI 算力，大模型这场战役我们可能胜不了，量子位，2023 年 12 月21图 9：AI 算力需求呈指数级增长，用以满足大模型开发和实践（来源：Epoch）图 10：大模型训练任务的稳定性，随着训练集群规模的扩张而递减222.数据质量和效率决定大模型的高质量发展之路高质量数据决定大模型性能和价值观，对数据的获取、清洗、标注等工作带来了更大挑战，需要更高效的 AI 数据管理流程来匹配大模型时代的新需求。而大模型的训练和应用过程还可能涉及用户隐私和敏感数据等，需要采取有效的数据治理手段来保障隐私和数据安全。构建性能强大和价值对齐的大模型，数据质量和效率是关键。不同来源数据质量参差不齐，存在重复、无效、虚假或敏感等数据，会直接影响模型性能及价值观。例如，训练数据固有偏见会导致模型产生偏见内容，需要对原始数据进行清洗、标注等预处理过程来保障数据质量和价值对齐。传统数据处理“作坊式”的工作模式，已无法满足大模型训练和迭代激增的“工业化”数据需求。一方面，训练大模型的预处理数据量大，一般可达到 TB 甚至 PB级别，远多于传统数据规模；另一方面，频繁的模型迭代、再训练也需要加快增量数据的预处理节奏。打造高效的“智能化数据处理流水线”成为关键，弥补传统重人力投入带来的高成本、低效率等问题。保障数据安全和用户隐私，需要更高效的数据治理手段。企业在使用生成式AI 将会面临更加突出的用户隐私和数据安全问题。例如，企业开发人员使用AI 代码辅助生成工具时，一般需要上传企业已有代码库，使大模型给出更精准的代码预测结果；企业营销人员上传过往的营销数据生成高质量的营销内容。这些上传的数据可能关系到用户隐私或涉及企业核心机密，如果保护不当或会造成严重的数据泄露，对用户造成不可逆损害。IDC 全球 2023 年生成式 AI 市场调研数据显示，用户在选择 AI 软件供应商时，强大的数据安全性是最重要的参考指标之一。因此，在大模型训练和交互时，如何将这些23上传数据进行充分隔离、安全保护，这对数据治理提出了很高的要求。3.大模型需要全新的 AI 平台服务模式大模型应用能够帮助企业更高效率的实现商业目标，但对于绝大多数企业而言，自研大模型成本高，且模型设计、训练、调优等环节对开发人员专业能力要求较高。MaaS（Model as a Service，大模型即服务）代表着一种全新的 AI云服务范式，它将大模型作为 AI 基础设施的核心组成，以云服务方式提供给开发人员和企业进行更高效的工业化开发（见图 11）。目前，包括微软、华为、百度、商汤等厂商均推出 MaaS 服务。MaaS 降低了企业享受大模型、生成式AI 红利的门槛，具体来看：MaaS 加快了 AI 应用开发过程，提高了创新迭代速度。MaaS 平台将预训练好的大模型与开发工具、数据管理一系列等功能封装在一起供开发人员直接调用，大幅节省了企业从零自建大模型及训练调优所耗费的时间和精力，加快了 AI 开发和应用部署速度，使企业能够快速将 AI 功能引入到自身业务场景中，缩短了 AI 新产品、新服务、新模式的上线时间，也加快了创新迭代速度，提升了企业市场竞争力。MaaS 降低了企业成本投入，推动 AI 与各行各业的深度融合。AI1.0 时代，由于小模型的场景适用性低且开发成本、专业要求都很高，AI 在传统行业的渗透率只有 4%。大模型时代，基于“基础大模型+微调”，不仅大大提升了场景适用性，同时 MaaS 模式也使得企业可以直接调用已训练好的大模型能力，这大大降低了企业 AI 开发成本和 AI 专业门槛，使得企业更愿意在内部更大范围的推进与业务相结合的 AI 创新，促进 AI 与行业的深度融合，行24业 AI 应用的渗透率将全面提速。MaaS 促进大模型生态体系建立，推动大模型应用规模化落地。MaaS 模式有助于 AI 产业链的高效分工，其中一部分技术实力强和 AI 专家资源丰富的厂商成为 MaaS 主要提供者，将重心侧重在基础大模型能力，以及平台化工具和服务效率上的持续提升，并通过平台开放、开源社区等方式吸引更多的企业和开发者汇集，形成百花齐放的大模型应用开发生态，从而满足更大范围、更多细分场景的 AI 需求，推动应用规模化落地。图 11：MaaS 平台帮助企业更好的调用大模型能力25三、新一代 AI 基础设施的定义、特点和价值AI2.0 时代需要新一代的基础设施来支撑大模型的训练与推理、生成式 AI应用的规模化落地，其核心要素，如算力、数据服务、大模型服务都需精细化的设计和重构，而非简单的服务器或 GPU 实例的堆砌。新一代 AI 基础设施定义：以大模型能力输出为核心平台，集成算力资源、数据服务和云服务，专门设计用于最大限度提升大模型和生成式 AI 应用的表现：数据准备与管理、大模型训练、推理、模型能力调用、生成式 AI 应用部署。企业通过新一代 AI 基础设施开发和运行生成式 AI 业务和客户应用程序，以及基模型和行业模型的训练与微调（见图 12）。在落地实践中，厂商还会基于自身的经验积累，针对用户在训练和使用大模型时面临的 AI 技术问题，为用户提供围绕大模型开发实践的咨询类服务。图 12：新一代 AI 基础设施主要由算力、MaaS 及相关工具构成26算力基础设施，为大模型训练和推理提供全面的计算、存储等产品及服务，具有“大算力、高协同、强扩展”的基本特性：由高性能异构集群组成强大的算力底座作为算力支撑，具备高互联的计算网络、高性能的文件存储和大规模的 AI 算力资源。高度的软硬件系统协同为保障，护航大模型任务的高效、稳定运行。在建构硬件层面的算力集群过程中，融合大模型分布式训练对计算、网络、存储的需求特点，高度集成 AI 软件能力，充分关注数据传输、任务调度、并行优化、资源利用、故障监测等，设计和构建高性能、弹性灵活、高容错的集群系统，保障训练和推理的高效、稳定运行。具备非常强的线性扩展能力，提供弹性灵活的云原生服务。将 GPU 等 AI 算力资源容器化、资源池化，在高弹性、高可用、高安全性的云原生架构下，使算力的管理能力拓展到整个智算中心，实现对 AI 计算资源的灵活调度、远程共享等目标，可以轻易支持万卡万参的大模型训练迭代。MaaS 平台层为大模型应用落地提供完整的服务和工具链体系，包括基础大模型库、大模型生产平台、数据管理平台、应用程序开发等主要部分。针对不同用户需求，MaaS 平台层可以提供不同服务类型：提供预构建的基础大模型及 API，包括开源和闭源的大模型，允许用户调用API，直接获取大模型相关的能力和服务，降低客户的使用成本，快速满足多个业务场景需求。提供一站式大模型开发工具及服务，包括模型训练、微调、评估、推理部署等，支持用户训练新的模型，或根据不同行业和业务场景进行微调，快速生成满足自身需求的专属大模型，强化大模型在细分领域的专项能力，推动大27模型在不同行业领域的快速落地。提供 AI 原生应用开发工具，满足用户基于大模型开发 AI 原生应用需求，赋能和重塑上层 AI 应用生态发展，为终端用户提供更卓越的生成式 AI 体验。提供预构建的高质量数据集及 AI 数据管理服务，包括数据清洗、标注、安全、合规等，降低用户在数据层面上的投入和成本，保障隐私和数据安全。1.新一代 AI 基础设施的主要特点新一代 AI 基础设施不是传统云的 AI 化，两者具有明显定位和发展路径的差别（见图 13）。新一代 AI 基础设施主要面向产业用户，为超大模型研发训练、区域行业及应用孵化创新提供 AI 基座，并跟随产业区域落地向周边辐射，通过可持续运营带动区域经济智能化发展。“建运一体”的智算中心充分发挥基础设施效益，支持区域智能化经济发展。智算中心不仅是新一代 AI 基础设施的物理载体，还是集公共算力服务、数据开放共享、智能生态建设和产业创新聚集四大功能于一体的综合服务平台。国家信息中心智能计算中心创新发展指南测算，在智算中心实现 80%应用水平下，区域对智算中心的投资可带动 AI 核心产业增长 2.93.4 倍、带动相关产业增长约 3642 倍。因此，“建好”智算中心不是目的,只有“用好”才能发挥效益。在建设规划阶段，需要以产业生态为导向，强调对区域产业、科研等应用场景的支撑，选择合理的建设和运营模式，进行集约化建设，并在建成后实现可持续运营，帮助当地更好的消化算力资源，以及促进智能产业生态发展和 AI 人才培养，发挥智算中心普惠高效的赋能效果。“大中心+节点”布局，建设跨地域互补、协同调度的超大规模 AI 算力网络。28大模型研发及预训练需要低成本、大规模的 AI 算力资源支持，而在应用阶段会更注重满足训练和推理一体需求。如何平衡不同需求下的算力供给，最大效率的使用算力资源非常关键。以“大中心+节点”模式建设算力一张网，实现训推算力协同调度。围绕经济中心布局“大中心”，以低成本大规模算力集群为载体面向万亿参数模型训练与部署；围绕产业基础好的区域落地算力节点，结合长效运营来满足产业训推一体的算力需求，并通过节点布局与大中心联动扩展算力网络辐射范围，跨地域支撑训推算力协同调度。侧重国产化生态建设，增强基础设施的自主可控。搭建基于国产软硬件的AI 基础设施，研发全栈国产化大模型，逐步形成自主可控的 AI 大模型产业生态关乎国家安全和战略发展。以芯片国产化适配为例，华为自研昇腾 910已实现与包括科大讯飞、紫东太初、美团等科技企业的战略合作，基于华为昇腾原生研发、适配的大模型已经超过 30 个，占据中国大模型的数量接近50%11。商汤科技深度学习框架已支持多家国产化芯片训练，适配领域包括图像分类、检测、NLP 等主流领域，推动算法与国产化芯片适配工作。图 13：新一代 AI 基础设施面对的是不同于传统云的业务要求11华为宣布昇腾 AI 集群全面升级推出首个万卡 AI 集群，中国新闻网，2023 年 7 月292.新一代 AI 基础设施创造社会价值新一代 AI 基础设施降低了大模型开发和应用的门槛，在政企服务、产业和科研创新等方面创造更大的社会价值（见图 14）。具体来看包括三方面：构建政务大模型，“一模通办”为政务服务提质增效。将原本分散、碎片化的政务应用，用一个性能强大、底座统一的大模型来承载，将大模型能力融入到数字政府的全流程场景中，无需为不同场景重复开发，通过“一模通办”并简化交互入口，全面提升地方政府智能化治理能力，推动各类智能惠企、便民服务的高效、精准实施，让企业、市民都能更好的享受城市公共服务。例如，面对海量的政务数据，依托政务大模型，能够帮助政府快速洞察热点事件、分析惠企政策落地等情况，及时掌握市民的关注点、惠企政策的应用成效等，为后续政策的制定和实施提供支持，提升社会治理水平。例如，基于政务大模型为市民打造统一的便民咨询窗口，可以精准识别企业、群众办事意图等，准确快速地给出最优的办理流程和依据，提高政务服务效率。打造人工智能产业高地，大模型激发区域产业创新活力。一方面，将加快推进传统产业上下游各个环节的智能化转型。例如，在农业领域，可以结合遥感数据开发出专属的遥感农业大模型，将 AI 技术下沉到水田农地，在种植业监测、耕地用途管理、涉农金融等细分领域助力数字农业技术的升级和推广;AI 基础设施可以赋能工业大模型的研发和应用，实现工业 AI 规模化生产。另一方面，将催生新业态、新模式的不断涌现。例如，MaaS 模式将重塑传统云服务市场格局，将会出现大量行业大模型精调企业，作为通用大模型和企业之间的中间层，助力通用大模型转化为行业大模型。还有海量 AI 原生应用开发企业、云原生安全创新公司等，将打通产业智能化的最后一公里。30赋能科学大模型，激发人工智能驱动科学研究（AI for Science）的新范式。基于大模型对原子运动规律、物质性质等进行预测和模拟，也可对医学图像、天文图像等进行更好的识别和理解，加速科学实验的自动化和智能化，实现自动化合成、自动化表征等。目前，在生物制药、气象预报、地震探测、材料研发等科研领域，大模型技术已带来了巨大的突破。例如，在生物计算领域，Deep-Mind 推出的 AlphaFold2 能够覆盖 98.5%的人类蛋白质组，并对 20 种其他生物蛋白质的结构进行预测12。在气象领域，上海人工智能实验室研发的全球中期天气预报大模型“风乌”，首次实现了在高分辨率上对核心大气变量进行超过 10 天的有效预报13。图 14：新一代 AI 基础设施赋能政务、产业和科研创新价值12Nature 重磅：AlphaFold 对人类 98.5%蛋白质进13上海 AI 实验室发布“风乌”大模型，全球气象有效预报时间首破 10 天，上海人工智能实

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档保存到电脑，查找使用更方便

25 金币

申诉本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请申请举报、认领或删除 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 新一代人工智能基础设施白皮书

咨信网温馨提示：
1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，个别因单元格分列造成显示页码不一将协商解决，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前自行私信或留言给上传者【Stan****Shan】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时私信或留言给本站上传会员【Stan****Shan】，需本站解决可联系【微信客服】、【 QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”（推荐），意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：4008-655-100；投诉/维权电话：4009-655-100。

关于本文

本文标题：新一代人工智能基础设施白皮书.pdf
链接地址：https://www.zixin.com.cn/doc/1266364.html

Stan****Shan

内容提供者

实名认证

查看上传人更多文档

部分上传会员的收益排行 01、路***（￥15400+），
02、曲****（￥15300+），
03、wei****016（￥13200+）,
04、大***流（￥12600+），
05、Fis****915（￥4200+），
06、h****i（￥4100+），
07、Q**（￥3400+），
08、自******点（￥2400+），
09、h*****x（￥1400+），
10、c****e（￥1100+）,
11、be*****ha（￥800+），
12、13********8（￥800+）。

相似文档

自信AI助手