人工智能行业:迈向智能世界白皮书2023.pdf
《人工智能行业:迈向智能世界白皮书2023.pdf》由会员分享,可在线阅读,更多相关《人工智能行业:迈向智能世界白皮书2023.pdf(64页珍藏版)》请在咨信网上搜索。
1、迈向智能世界白皮书2023数据新范式,释放AI新动能数据存储 1数据存储序言今天AI大模型是一个非常热的话题,如果说我们把机器智力的发展跟人类过去文明和智力的发展进行类比,有很多相似之处。人类出现在地球上,有几十万年的历史,但是真正人类文明的高速发展也就几千年。这里边最关键的是文字的出现,我们可以记录我们的经验和知识,而且记录下来之后可以群体性地进行学习、复制、演进、发展,这就导致了我们人类社会文明在这几千年当中高速地发展。那么同样的,AI机器文明的发展会怎么样。我们可以看到,今天机器已经有了很好的算法,这个算法可以使得机器能够学习,但是更重要的是学习的素材在哪里。所以有一句话叫做缺数据、无A
2、I,我觉得这句话是非常重要的,它跟人类的历史也恰恰是一样的。如果说我们仅仅只有一个方法论,但是缺乏知识库,缺乏语料库,那么所有的AI大模型本质上是没有意义的。我们必须喂给它知识库、语料库,它才能够针对我们的场景形成咨询师,形成编程机器人,形成客服机器人,让它具有自己学习的大脑。因此在整个系统当中,除了算这一部分,把我们今天的信息进行数字化存储,变成知识库,让这些知识库用的更好,这一点也需要引起足够的重视。2数据存储周跃峰华为数据存储产品线总裁所以我们认为,企业在未来AI时代要持续领先,一个很重要的基础就是必须具备先进的以数据存储为核心的数据基础设施。华为公司在数据存储产业上的大规模投入超过十年
3、,产品已进入全球超过150个国家和地区,广泛服务于运营商、金融、政府、能源、医疗、制造、交通等多个行业超过25000家客户。通过与业界专家、客户和伙伴深入交流,我们编写了这份迈向智能世界-数据存储白皮书报告,结合近期火热的AI大模型话题,从新应用、新数据、新安全、新技术、绿色节能五个方面,展望数据存储的发展趋势与行动建议。我相信这是一次有意义的探索,将凝聚更多的产业力量共同推进数据存储产业的发展。过去三十年,数据存储一直是高价值数据的最佳底座,新技术、新应用产生的数据源源不断地汇入数据海洋,华为数据存储愿与产业各方更加紧密携手努力,汇聚产业力量,共创数据存储美好未来。序言目录执行摘要01030
4、5展望一AI大模型展望三分布式数据库展望二大数据展望四 云原生新应用新应用新应用新应用08192428展望五 非结构化数据新数据333目录数据存储数据存储446展望八以数据为中心的架构新技术新技术展望九AI赋能存储49绿色节能展望十 存储绿色节能54新安全新技术展望六存储内生安全37展望七 全场景闪存普惠42 63附录5执行摘要AI大模型已超出人类想象的速度,将我们带入智能世界。算力、算法、数据构成了AI的三要素。算力、算法是AI大模型时代的工具,数据的规模和质量才真正决定了AI智能的高度。数据存储将信息变为语料库、知识库,正在和计算一起成为最重要的AI大模型基础设施。以AI大模型为代表的企业
5、智能化应用,正在和经典数据库应用形成并驾齐驱乃至超越之势。每一次应用的变革,都伴随着数据基础设施架构的演进。高可靠、高性能、共享的数据存储,成为以Oracle为代表的数据库的最佳数据基础设施。新的企业智能化应用从量变进入质变阶段,正在形成新的数据范式。面向未来,我们对企业数据存储进行了如下展望:AI大模型将AI带入新的发展阶段。AI大模型需要更高效的海量原始数据收集和预处理,更高性能的训练数据加载和模型数据保存,以及更加及时和精准的行业推理知识库。以近存计算、向量存储为代表的AI数据新范式正在蓬勃发展。大数据应用经历了历史信息统计、未来趋势预测阶段,正在进入辅助实时精准决策、智能决策阶段。以近
6、存计算为代表的数据新范式,将大幅提升湖仓一体大数据平台的分析效率。以开源为基础的分布式数据库,正在承担越来越关键的企业应用,新的分布式数据库+共享存储的高性能、高可靠架构正在形成。多云成为企业数据中心新常态,企业自建数据中心和公有云形成有效互补。云计算的建设模式从封闭全栈走向开放解耦,从而实现应用多云部署、数据/资源集中共享。以容器为基础的云原生应用,从无状态应用走向有状态应用,数据存储一方面要提升资源发放效率,更重要的要承载全新的云原生应用。存储即服务的商业模式,正在从公有云走向企业数据中心。121234数据存储680%的企业新增数据是非结构化数据,AI大模型正在加速海量非结构化数据进入生产
7、决策系统,全闪分布式存储成为海量非结构数据最佳数据基础设施。AI大模型应用聚集海量企业私域数据,数据安全风险剧增。构建包括存储内生安全在内的完整数据安全体系,迫在眉睫。全闪存存储以高性能、高可靠、更优的TCO,不仅实现对高性能机械硬盘的替代,也将实现对大容量机械盘的替代,从而打造全闪存数据中心。AI大模型推动数据中心的计算、存储架构从以CPU为中心走向以数据为中心,新的系统架构、生态正在重新构建。AI技术正在越来越多地融入在数据存储产品及其管理,从而大幅改善数据基础设施的SLA水平。绿色节能从产业牵引进入实施执行阶段,占数据中心能耗30%的数据存储,能耗指标正在纳入建设标准。数据存储65789
8、10123面向以AI大模型为代表的企业智能化新应用,新的数据基础设施架构也正在逐渐形成。为了构建大模型时代最佳的数据基础设施,我们建议:企业数字化从以应用创新为主,转向应用和数据基础设施的协同创新,充分发挥数据潜力。针对AI、大数据、分布式数据库、云原生应用,建设新应用和数据存储的联合设计团队,共同打造最佳的数据基础设施。坚定不移地推进新应用的存算分离架构,充分发挥应用、存储的专业能力,实现强强联合。7探索以数据为中心的新存储系统架构;构建新的数据范式,推动数据存储支持近存计算、新的数据格式、新的数据访问协议、高性能应用数据缓存。新架构和新范式的组合优化,将大幅提升数字化新应用的效率,让新应用
9、拥有更高的SLA,并尽量降低传统应用的改造成本。企业核心的竞争力应用部署在企业自建数据中心,不确定性创新业务根据需要可以尝试公有云。云的建设模式逐渐向应用多云部署、数据/资源集中共享的分层解耦模式演进。面向容器为基础的云原生应用,联合应用开发团队和数据存储团队,构建云原生应用最佳实践。依据企业的战略、经营情况、未来预测,不盲从,综合对比、选择合适的商业模式,并选择合适的MSP、存储厂商合作伙伴。加速全闪存存储的应用,采用以数据为中心的新架构存储、高密硬件、数据缩减、系统融合、海量非结构化数据治理等技术,降低海量数据的TCO,打造绿色低碳的数据中心。将数据存储团队加入数据安全联合团队,制定数据存
10、储内生安全标准,构建数据安全的最后一道防线。积极尝试AI使能的数据存储产品及其管理,提升团队人员AI技能,从而大幅改善数据基础设施的SLA水平。45678数据存储 8AI大模型新应用展望一数据存储9缺数据,无AI随着GPU算力、AI算法的迅猛发展,以生成式AI为代表的AI大模型时代已经来临。其在对话、知识反馈等方面已远超过普通人类水平,更将颠覆互联网、制造、金融、媒体等千行百业。当前,AI大模型的第一波浪潮已经开始,作为企业IT建设的决策者,需要正视并主动拥抱变化,探索企业如何利用好大模型赋能生产、提升效率。趋势AI的发展远超过预期2022年末,当OpenAI发布ChatGPT时,没有人能想到
11、,AI大模型接下来将为人类社会带来历史性变革。其拐点已经出现:2022年以前,AI还是一个面向专用领域以“感知世界、理解世界”的小众工具,例如计算机视觉、互联网推荐。当前,它已经成长为面向通用领域以“生成创造世界”的全能发明家,懂学习知识、会理解思考,在社交、办公、编程、决策、创意生成中掀起生产力的巨浪。举例来说,同年发布的的生成式绘图AI软件Midjourney在1分钟内,便可根据描述创造出不逊于人类顶尖设计师的作品。Midjourney基于GPT大模型,实现了在33个设计领域均实现应用落地,例如,在文创设计领域的毛线编织、手机壳、盲盒公仔、冰箱贴、贺卡、玩具,在视觉设计领域的卡通头像、公司
12、Logo、徽标、电影海报,甚至在家装设计领域的地毯纹路、瓷砖图案、家具造型数据存储10示,沃尔玛、亚马逊和微软等公司已经通知员工不要在ChatGPT或类似生成式应用中输入任何机密信息,而摩根大通、花旗集团、德意志银行和美国银行直接禁止员工使用ChatGPT。Verizon也禁止员工从公司系统访问ChatGPT,原因是Verizon认为如果将客户信息、源代码或知识产权等内容放置在AI平台上,这些信息最终将转化为这些平台的资产,从而失去对数据流转的控制。数据决定AI智能的高度AI大模型三要素是数据、算力、算法。随着AI技术快速成熟,各企业所能够使用的算力已逐渐趋同,均是以英伟达、昇腾为代表的GPU
13、硬件;而各企业采用的算法也同样逐渐收敛简化,均采用Transformer模型基础架构和Pytorch、TensorFlow、MindSpore开发框架。因此,真正决定AI智能高度的是数据,企业需要思考怎样才能用好数据。首先,训练数据的规模至关重要。我们发现,同样是大语言模型,Meta开发的LLaMA拥有650亿参数和4.5TB训练数据,而OpenAI的GPT-3.5拥有1750亿参数和570GB训练数据,尽管LLaMA在参数规模上仅不到GPT-3.5大模型正在从基础大模型走向企业自建的行业大模型AI基础大模型已逐渐普及,正在加速向各个行业渗透。过去,AI在不同场景下需要开发和训练不同的模型,不
14、仅投入大、效率低,而且是从最基础的模型开始开发,技术门槛极高。而如今,大模型很大程度上打破了AI通用化、行业化的瓶颈,为上层应用提供更多通用性的基础能力,企业不再需要按场景从零开始开发和训练独立的基础模型,仅需在较成熟的基础大模型上融入企业生产业务沉淀而来的私域数据,即可进一步实现大模型的专业训练,满足特定领域对准确度、安全性等方面的诉求。根据华为分析,预计95%的中大型企业未来将基于专属数据自建行业大模型,依赖如银行的企业账户与个人财务信息、车企的自动驾驶影像记录、医疗集团的用户健康数据。其次,我们也发现,企业对于使用公开的大模型,是非常谨慎的。数据是企业的核心资产,企业无法接受在大模型使用
15、中导致企业核心机密泄露。据Cyberhaven对覆盖160万名来自各行业员工的调研,2.3%的员工曾将公司数据复制到ChatGPT,且其中机密数据占11%。而根据Gartner报告显举例来说,同年发布的的生成式绘图AI软件Midjourney在1分钟内,便可根据描述创造出不逊于人类顶尖设计师的作品。Midjourney基于GPT大模型,实现了在33个设计领域均实现应用落地,例如,在文创设计领域的毛线编织、手机壳、盲盒公仔、冰箱贴、贺卡、玩具,在视觉设计领域的卡通头像、公司Logo、徽标、电影海报,甚至在家装设计领域的地毯纹路、瓷砖图案、家具造型秒就发生一次数据勒索事件,企业不仅面临赎金损失,还
16、会面临商誉、商业机会、法律诉讼、人力和时间成本等损失,这些连带损失甚至是赎金损失的23倍以上。而另一类是新型的数据攻击,主要是通过加入噪音数据,如在训练数据中加入暴力、意识形态歪曲的内容,导致模型质量下降、推理精确度失准、出现模型幻觉,最终干扰企业决策。这需要存储能够保障数据安全。简单来说,AI大模型时代的到来,存储作为数据的关键载体,需要在三个方面演进,即海量非结构化数据的治理、10倍的性能提升、存储内生安全。在满足EB级海量扩展性的基础之上,需要满足百GBps级的带宽和千万级IOPS,实现10倍以上的性能提升。数据存储11的一半,但其表现能力在大部分基准上均超过后者。不仅如此,LLaMA更
17、是与来自DeepMind的700亿参数模型Chinchilla、来自谷歌的5400亿参数模型PaLM在表现上旗鼓相当。由此可见,相较于模型参数规模,训练数据的体量对提升AI精度的效果更能起决定性作用。其次,数据的质量同样重要。AI大模型生成不正确、有歧义、无意义或不真实的结果,根本原因就是缺乏具备规范性、完整性、时效性的高质量数据源支撑。对于基础大模型,主要基于厂商从公开渠道所获取数据的质量。而对于行业大模型的训练及细分场景推理应用,模型效果取决于行业专属的私域数据的质量,这包含了企业原有数据,与实时更新的增量数据,也就是行业知识库。作为数据载体,数据存储成为AI大模型的关键基础设施作为数据载
18、体,数据存储成为AI大模型的关键基础设施。数据存储是AI大模型数据收集、预处理、训练、推理的关键一环,决定了能保存的数据容量、训练及推理的数据读取效率、数据的可靠性以及数据安全。首先,海量原始数据的归集效率。这个阶段需要通过跨地域、跨线上线下的方式对数据进行归集汇总,进行如数据中心、边缘、云间不同协议格式数据的交互。据统计,PB级数据的归集通常花费35周,耗时占据整个AI大模型全流程时长的30%。为了加速数据归集、减少后续分析的等待时间,需要存储具备高效汇聚、协议互通、海量按需扩容的能力。其次,数据的预处理效率。通过收集、爬取的原始数据是无法直接用于模型训练的,PB级原始数据会在这个阶段被CP
19、U与GPU再次读取,进行解析、清洗、去重等工作,包含至少3次全量数据读取与搬迁,所消耗的CPU、GPU、网络、内存资源占据30%以上,然后最终生成训练样本用于后续训练。我们分析,企业在这个阶段耗时超过50天,占据AI大模型全流程时长的40%以上。为了保证数据处理的效率、减少资源的浪费,需要存储提供对数据的就近处理能力。第三,模型训练阶段的数据访问效率。在模型训练启动阶段,GPU服务器会随机读取数万个小文件,读取完毕后才能启动训练。为了避免GPU等待训练数据的加载时间过长,需要数据存储提供千万级IOPS能力。此外,在模型训练的过程中,GPU服务器硬件的故障率较高,譬如业界模型训练平均每2.8天故
20、障一次,如果每次均从头重新训练,将永远无法完成训练任务。因此,在过程中一般会设定数十次、甚至上百次的周期性checkpoint操作,保存中间过程数据,让发生故障后可以断点续训。在这个期间,GPU将会暂停,等待数据完整保存后才可继续运转。为了减少GPU的空置时长,需要存储提供数百GBps级的读写带宽。此外,应用推理阶段的实时性和精准性。当大模型用于推理时,为避免大模型出现答非所问、内容杜撰等问题,需要将企业不断产生的私有数据联接到大模型。如果将这些全新的数据再次进行训练或微调,会耗费很长时间,且成本高昂。业界正在研究大模型旁外挂一个可容纳增量数据、并且实时动态更新的行业知识库,这其实就需要一个能
21、够快速检索关键信息的新型存储。最后,在AI大模型全周期漫长的数据链条中,通常攻击的手段归结为两类,一类是传统的数据窃取,以获取勒索赎金。据统计,2022年平均每11大模型正在从基础大模型走向企业自建的行业大模型AI基础大模型已逐渐普及,正在加速向各个行业渗透。过去,AI在不同场景下需要开发和训练不同的模型,不仅投入大、效率低,而且是从最基础的模型开始开发,技术门槛极高。而如今,大模型很大程度上打破了AI通用化、行业化的瓶颈,为上层应用提供更多通用性的基础能力,企业不再需要按场景从零开始开发和训练独立的基础模型,仅需在较成熟的基础大模型上融入企业生产业务沉淀而来的私域数据,即可进一步实现大模型的
22、专业训练,满足特定领域对准确度、安全性等方面的诉求。根据华为分析,预计95%的中大型企业未来将基于专属数据自建行业大模型,依赖如银行的企业账户与个人财务信息、车企的自动驾驶影像记录、医疗集团的用户健康数据。其次,我们也发现,企业对于使用公开的大模型,是非常谨慎的。数据是企业的核心资产,企业无法接受在大模型使用中导致企业核心机密泄露。据Cyberhaven对覆盖160万名来自各行业员工的调研,2.3%的员工曾将公司数据复制到ChatGPT,且其中机密数据占11%。而根据Gartner报告显举例来说,同年发布的的生成式绘图AI软件Midjourney在1分钟内,便可根据描述创造出不逊于人类顶尖设计
23、师的作品。Midjourney基于GPT大模型,实现了在33个设计领域均实现应用落地,例如,在文创设计领域的毛线编织、手机壳、盲盒公仔、冰箱贴、贺卡、玩具,在视觉设计领域的卡通头像、公司Logo、徽标、电影海报,甚至在家装设计领域的地毯纹路、瓷砖图案、家具造型秒就发生一次数据勒索事件,企业不仅面临赎金损失,还会面临商誉、商业机会、法律诉讼、人力和时间成本等损失,这些连带损失甚至是赎金损失的23倍以上。而另一类是新型的数据攻击,主要是通过加入噪音数据,如在训练数据中加入暴力、意识形态歪曲的内容,导致模型质量下降、推理精确度失准、出现模型幻觉,最终干扰企业决策。这需要存储能够保障数据安全。简单来说
24、,AI大模型时代的到来,存储作为数据的关键载体,需要在三个方面演进,即海量非结构化数据的治理、10倍的性能提升、存储内生安全。在满足EB级海量扩展性的基础之上,需要满足百GBps级的带宽和千万级IOPS,实现10倍以上的性能提升。数据存储12据存储提供千万级IOPS能力。此外,在模型训练的过程中,GPU服务器硬件的故障率较高,譬如业界模型训练平均每2.8天故障一次,如果每次均从头重新训练,将永远无法完成训练任务。因此,在过程中一般会设定数十次、甚至上百次的周期性checkpoint操作,保存中间过程数据,让发生故障后可以断点续训。在这个期间,GPU将会暂停,等待数据完整保存后才可继续运转。为了
25、减少GPU的空置时长,需要存储提供数百GBps级的读写带宽。此外,应用推理阶段的实时性和精准性。当大模型用于推理时,为避免大模型出现答非所问、内容杜撰等问题,需要将企业不断产生的私有数据联接到大模型。如果将这些全新的数据再次进行训练或微调,会耗费很长时间,且成本高昂。业界正在研究大模型旁外挂一个可容纳增量数据、并且实时动态更新的行业知识库,这其实就需要一个能够快速检索关键信息的新型存储。最后,在AI大模型全周期漫长的数据链条中,通常攻击的手段归结为两类,一类是传统的数据窃取,以获取勒索赎金。据统计,2022年平均每11秒就发生一次数据勒索事件,企业不仅面临赎金损失,还会面临商誉、商业机会、法律
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 人工智能 行业 迈向 智能 世界 白皮书 2023
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【Stan****Shan】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【Stan****Shan】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。