人工智能行业:预训练大模型白皮书.pdf
《人工智能行业:预训练大模型白皮书.pdf》由会员分享,可在线阅读,更多相关《人工智能行业:预训练大模型白皮书.pdf(58页珍藏版)》请在咨信网上搜索。
预训练大模型白皮书01PREFACE高 文中国工程院院士 鹏城实验室主任北京大学博雅讲席教授自 1956 年人工智能在达特茅斯会议上被提出,人工智能领域的学者一直致力于提升算法的通用性能力,即希望人工智能方法能够像人类一样,快速灵活地适应各种实际应用问题,提升人类社会的生产效率。然而,在人工智能发展的前半个世纪,学者们始终没有找到合适的方法论,而包括符号计算、专家系统等精心设计的模型,都只能用于少数限定场景,无法拓展到以计算机视觉、自然语言处理为代表的复杂系统中去。21 世纪初,随着硬件性能的演进和大数据的兴起,情况发生了根本性的变化。2010 年开始,深度学习以席卷之势,占领了人工智能的大部分领域,在许多公测数据上取得了前所未有的精确度。深度学习的本质是统计学习,即通过在大量数据上拟合复杂函数,使得该函数具有泛化能力。时至今日,这种范式已经取得了巨大的成功:一个深层神经网络,只要在不同数据上训练或者微调,就能够应用于不同的任务,而这件事在 20 年前是几乎无法想象的。然而,基于深度学习的人工智能方法,依然存在明显的缺陷。对大数据和大算力的强烈依赖、对参数调节的敏感性,都在无形之中抬高了人工智能算法的使用门槛。为此,我们迫切地需要一种新思路,打通通用数据和领域知识,并且大幅度地降低人工智能研发的人力和算力成本。为此,业界提出了预训练大模型的范式,通过收02集海量训练数据,并通过一种称为预训练的过程,将其中蕴含的知识存储于大规模神经网络,即大模型之中。如此,这个预训练大模型就具有了很强的泛化能力,并且可以通过简单的微调操作,将其能力应用到下游任务中去。在过去五年间,预训练大模型在自然语言处理、计算机视觉等领域取得了长足的发展,模型规模屡创新高,模型泛化性也不断提升。而我也欣喜地看到,预训练大模型已经在华为取得商业应用,成功落地在工业质检、智慧交通、时尚设计等多个产业中。人工智能的前路依然漫长。预训练大模型正在逼近统计学习方法的极限,但是它也有无法解决的课题,包括模型的可解释性和安全性等难题。同时,大模型的功耗远远超过人类大脑,也意味着这种方式也许不是最优的解决方案。总的来说,当前的人工智能正处在历史的十字路口,业界需要在预训练大模型的基础上做出抉择,走出未来的发展道路来。在上述背景下,华为公司发布预训练大模型白皮书,具有重要的意义。我相信,华为在大模型的研发和落地上的投入,最终会给学术界和产业界带来启发,成为扩展人工智能能力边界和推动人工智能产业升级的强大力量。03PREFACE张平安华为高级副总裁华为云 CEO当今世界正面临百年未有之大变局。以人工智能、大数据、物联网、云计算和 5G为代表的数字化技术,正在深刻地驱动产业变革,重塑全球的技术和产业格局。其中,人工智能发展的经济和战略意义,已经取得了包括中国在内的全球许多国家的共识。2021 年,习总书记在主持中央政治局第三十四次集体学习时强调,支持人工智能和实体经济深度融合,建设数字中国、智慧社会,推进数字产业化和产业数字化,打造具有国际竞争力的数字产业集群。2022年8月,科技部等六部门联合印发了 关于加快场景创新以人工智能高水平应用促进经济高质量发展的指导意见,系统指导各地方和各主体加快人工智能场景应用,推动经济高质量发展。发展人工智能已经是世界高科技的方向标之一,也成为了全球各个强国推进前沿研发的纲领性原则和激烈竞争场。作为当前人工智能领域最前沿的课题和最有力的武器,预训练大模型无疑是这场竞争中的焦点之一。以自然语言处理领域为例,预训练大模型的参数规模已经从 2018 年的亿级来到了 2022 年万亿级,几乎每年都能看到数量级上的提升。预训练大模型是一项庞大的系统性工程,不仅涉及到先进算法的研发,还需要硬件、框架、开发工具的支持。华为公司构建了从昇腾+鲲鹏芯片到 AI 开发框架04MindSpore 和 AI 开发平台 ModelArts 的全栈式开发能力,并基于这些能力提出了盘古预训练大模型。一年多以来,盘古大模型持续演进,在计算机视觉、自然语言处理、科学计算等领域为业界贡献了先进的算法和解决方案。截至 2022 年,盘古大模型已经被应用于十余个行业的百余个场景,为研发人员提供了新的开发方案,也取得了可观的商业价值。实践表明,盘古预训练大模型能有效减少专家的干预和人为调优的消耗,降低人工智能开发的门槛和成本,这对践行普惠 AI,实现人工智能的泛化和规模复制,具有非常巨大的意义。在整合大模型研发和落地经验后,华为团队撰写了预训练大模型白皮书,旨在将自身对大模型的洞察毫无保留地分享给业界,以期推进以大模型为核心的人工智能产业的健康发展。前路是艰辛的,前途也是光明的。人工智能经历六十余年的沉浮,始终没有放弃“减少重复劳动”和“扩展人类知识边界”这两大根本目标。只要不忘初心、牢记使命,技术研究和行业落地就能更紧密地结合起来,在发展技术的同时,为人类社会创造更多的福祉。05FOREWORD高新波教授 重庆邮电大学校长 国家杰出青年科学基金获得者 教育部长江学者特聘教授古有盘古开天地,今有华为大模型。为解决人工智能算法落地的碎片化困境,预训练大模型应运而生。自华为云团队发布盘古预训练大模型以来,形成了全栈式 AI 解决方案,在很多领域获得了成功的应用。相信预训练大模型白皮书将会引领大模型健康发展,为通用人工智能探索一条可能的新路径。庄越挺浙江大学计算机学院教授国家杰出青年基金获得者 教育部长江学者特聘教授 教育部人工智能协同创新中心主任预训练大模型是当前新一代人工智能领域最前沿的研究方向,正成为世界各科技强国竞争的焦点。预训练大模型率先在自然语言处理领域取得突破性的进展,并迅速拓展到涉及图像、视频、图形、语言等跨媒体推理的各类任务和大量的商业应用之中,展现了巨大的发展潜力。华为云发布预训练大模型白皮书,正逢其时,必定对 AI 行业产生有价值的指导作用,也体现了作为一个科技大公司的担当精神。我相信,预训练大模型可望成为跨媒体智能的重要技术手段。张民教授 哈尔滨工业大学(深圳)特聘校长助理计算与智能研究院院长 国家杰出青年基金获得者预训练大模型被称为人工智能应用的基础设施,它具有强大的知识建模、知识获取和应用泛化能力。华为云预训练大模型白皮书以华为云盘古大模型家族为代表,全面介绍了华为在大模型方面的系列创新性工作,包括视觉、语音语义、多模态、科学计算、图网络大模型,以及产业落地经验和对未来发展的展望。这本白皮书会给学术界和产业界提供重要的启发和借鉴。06李厚强教授 中国科学技术大学信息学院副院长 IEEE Fellow国家杰出青年科学基金获得者 教育部长江学者特聘教授预训练大模型是人工智能领域的研究热点和前沿技术,近年来在自然语言处理、计算机视觉等方向取得了巨大成功。华为云团队撰写的预训练大模型白皮书,将其在大模型研发和落地中的经验总结出来,分享给学术界和工业界,对推动预训练大模型理论、方法、技术、应用的发展具有重要意义。熊红凯上海交通大学特聘教授国家杰出青年基金获得者 教育部长江学者特聘教授爱因斯坦说:这个宇宙最让人难以理解的地方,就是它竟然是可以被理解的。斗转星移,大数据和人工智能在 21 世纪,为我们开启了一个理解人类自身认知的帷幕,逐步融入了我们的日常生活;也正是在这样一种时代背景下,旨在建立一种通用智能的“大模型”应运而生。它寄望于“预训练大模型+下游任务微调”的方式,将知识存储到大量参数中,扩展模型的泛化能力。很大意义上,对大模型的落地部署,能够超越产业和国家的界限,实现人类社会的福祉。华为公司的预训练大模型白皮书,我相信,能为我们建立普遍理性和平等的社会,提供强大的力量。姜育刚复旦大学教授 博士生导师教育部长江学者特聘教授 复旦大学人事处处长近年来,以 GPT-3、CLIP 为代表的超大规模预训练模型被陆续提出,通过在海量数据上进行自监督学习,有效提升了自然语言处理与计算机视觉领域多个下游任务的性能。华为云在预训练大模型领域有着深厚的技术积累,于 2021 年发布了“盘古”系列超大规模预训练模型,受到了学术界和工业界的广泛关注。华为云预训练大模型白皮书总结了大模型的发展趋势及其带来的机遇,为未来研究提供了重要借鉴。07让预训练大模型成为 AI 的操作系统近年来,国内的云计算市场增速明显,企业上云明显提速。客户的需求逐步从“资源型需求”转向“智能型需求”及“业务型需求”,意味着 PaaS、SaaS 等各行业各场景的云解决方案将受到更多关注。尽管该市场呈现出了广阔的前景,业务的庞大数量和场景种类夸张的多样性也意味着巨大的难度。随着市场的成熟上升,“一招鲜吃遍天”的套路相对于针对用户需求定制化的解决方案已不具优势,意味着在细分领域深耕的中小型友商也具有瓜分市场的竞争力。因此,如何在保证市场占有率并支撑如此大量的业务的情况下,控制资源和成本、保证交付效率和保证产品质量是云厂商要解决的核心难题。引言PREFACE封闭的作坊式的 AI 开发局限于特定的场景。特定的数据无法满足 AI 快速落地行业的需求AI 走进企业核心生产系统,开始创造更大价值高成本,高门槛、无积累AI 进入千行百业面临诸多挑战1 场景碎片化,作坊式开发难以规模复制2 行业知识与 AI 技术结合困难3 行业普通 AI 模型攻击、隐私、安全担忧“2025 年,企业对 AI 的采用率86%(当前4%)”EI AI 实践:600+项目,30%进入生产系统,但是如果人们对电磁的理解停留在法拉第的电磁感应层次而没有麦克斯韦的电磁场理论,电气革命是不可能发生的。如果刮风下雨打雷甚至连温度变化都会导致断电,电怎么可能变成一个普惠性的产品,怎么可能变成社会基础设施?模型 1专家 专家 专家 定制场景 1模型 2专家 专家 专家 定制场景 2模型 3专家 专家 专家 定制场景 308为了解决这个困境,预训练大模型应运而生。它收集大量图像、文本等数据,利用无监督或者自监督学习方法将数据中蕴含的知识提取出来,存储在具有大量参数的神经网络模型中。遇到特定任务时,只要调用一个通用的流程,就能够将这些知识释放出来,并且与行业经验结合,解决实际问题。近年来,预训练大模型相关研究和应用呈井喷态势,大有一统人工智能领域的趋势。不过我们也应该看到,预训练大模型距离规模化的商业应用,还有很长的路要走,这里不仅包含技术的演进,也包含商业模式的进化。按照我们的设想,大模型是未来 AI 计算的“操作系统”,向下管理 AI 硬件,向上支撑 AI 算法,使得 AI 开发更加规范化、平民化。我们希望通过编写预训练大模型白皮书,将我们团队在研究和落地中获得的经验总结下来,更好地促进行业的进步。另一方面,随着工业生产越来越强调智能化,大量传统行业开始积累领域数据,并寻求人工智能算法以解决生产和研发过程中遇到的重复而冗杂的问题。这就意味着,人工智能算法在落地的过程中,将会面对大量不同场景、不同需求的用户。这对算法的通用性提出了很高的要求。然而我们注意到,当前业界大部分人工智能开发者,正在沿用传统的“小作坊模式”,即针对每个场景,独立地完成模型选择、数据处理、模型优化、模型迭代等一系列开发环节。由于无法积累通用知识,同时不同领域的调试方法有所不同,这样的开发模式往往比较低效。特别地,当前人工智能领域存在大量专业水平不高的开发者,他们往往不能掌握规范的开发模式和高效的调优技巧,从而使得模型的精度、性能、可扩展性等指标都不能达到令人满意的水平。我们将上述问题,称为人工智能算法落地的碎片化困境。超大的神经网络预训练模型华为云盘古大模型AI 工业化开发流水线流水线流水线泛化复制模型泛化 极大节省训练投入流水线 工具集成 训练更快盘古大模型效率提升更佳模型性能10-100 倍模型 3模型 2模型 1场景 1场景 2场景 3强壮的网络架构优秀的泛化能力预训练微调&部署迭代NLP大模型(千亿参数)CV大模型(30亿参数)多模态大模型科学计算大模型09大模型是 AI 发展的必然趋势盘古大模型家族介绍/09/191.1 人工智能发展史简介1.2 人工智能发展趋势的总体研判2.1 视觉大模型2.2 语音语义大模型2.3 多模态大模型2.4 科学计算大模型2.5 图网络大模型10盘古大模型应用案例/433.1 视觉大模型案例:TFDS 图像自动识别3.2 语音语义大模型:赋能智慧销售3.3 多模态大模型:一网统管事件工单分配3.4 图网络大模型:水泥生产系统的自动控制3.5 图网络大模型:炼焦系统的自动控制展望未来,大模型的机遇与挑战并存/5511大模型是 AI 发展的必然趋势13人工智能从 1956 年被正式提出以来,经历了数十年的发展历程。人工智能诞生初期,其研究主要分为三个流派,即逻辑演绎、归纳统计和类脑计算。其中,逻辑演绎方法局限性较强,难以对建模复杂的实际问题进行建模;而类脑计算方法过多地依赖于生命科学,特别是脑科学的研究,而后者的进展难以满足人工智能的一般要求。在进入 21 世纪依赖,在大数据和大算力的支持下,归纳统计方法逐渐占据了人工智能领域的主导地位,并且催生出一系列方法论和应用,深刻地影响和改变了人类社会。1.1 人工智能发展史简介14人工智能发展史孕育期19561974198019871994繁荣期繁荣期繁荣期低谷期低谷期反向传播算法的提出深蓝战胜世界冠军人工智能的乐观思潮神经网络的数学模型通用计算机出现图灵测试的提出达特矛斯会议的召开感知器算法和硬件化DARPA 资金的支持Perceptron出版DARPA 终止资助对盲目乐观的反思专家系统出现统计学习受到重视专家系统的局限性硬件需求大幅下降资金支持再次减少统计学习方法的应用深度学习开始统治AlphaGo 战胜李世乭大规模预训练模型再次获得资金支持15如上图所示,人工智能的主要发展阶段如下:孕育期这一时期的代表性成果,主要包括Warren S.McCulloch和 Walter Pitts 提出的人工神经网络的视觉模型,以及Alan M.Turing 设想的验证人工智能的思想实验(即图灵测试)。同时,1946 年出现的通用计算机 ENIAC,也为人工智能的复杂演算提供了硬件支撑。19431956 年第一次繁荣期以 1956 年达特茅斯会议为标志,人工智能被正式提出并且进入第一次繁荣期。基于逻辑演绎的人工智能算法解决了某些特定领域的问题(如证明数学定理),而基于亚符号系统的感知器算法也被实现出来,甚至在 1957年出现了专门用于模拟感知 器 的 计 算 机 Mark I。此时的学者对于人工智能抱有不切实际的乐观幻想,包括Marvin L.Minsky(1969 年图灵奖得主)和 Herbert A.Simon(1975 年图灵奖得主)在内的多名学者,均预测人工智能将在 20 年内获得彻底解决。而以 DARPA 为代表的政府机构和大型企业,也为人工智能的研究注入了大量资金。19561974 年第一次低谷期研究者们很快意识到了第一代人工智能算法的极限。1969 年,Marvin L.Minsky发表著作Perceptrons,几乎一手摧毁了联结主义(即人工神经网络)方面的研究;同时,基于逻辑演绎的算法也被证明需要指数级时间以解决大部分问题。随着DARPA 等机构撤出大部分投资,人工智能领域也开启一波反思浪潮,其中有代表性的是 James Lighthill 于 1973年发表的人工智能综述报告和 John R.Searle 于 1980 年提出的中文房间问题。19741980 年16第二次繁荣期随着专家系统的出现和盛行,人工智能算法开始在限定领域内解决实际问题。1975 年 出 现 的 MYCIN 算法,能够在医学领域完成血液传染病的诊断工作。同时,以 Hopfield 网络为代表的新型神经网络和 David E.Rumelhart 发明的反向传播算法,极大地增强了人工神经网络的适用范围。1989年,Yann LeCun(2018 年 图 灵奖得主)使用五层神经网络识别手写数字,该方法取得巨大成功并在 20 世纪 90 年代识别了美国超过 10%的手写支票。以 DARPA 为代表的机构再次行动起来,使得20 世纪 80 年代后半段在人工智能领域的投入资金比起前半段增长了数倍。19801987 年第二次低谷期然而,专家系统很快遇到了新的困境。研究者们发现,即使在限定领域中,面对未知或者未定义的问题时,即使问题十分简单,专家系统的表现也无法预测甚至控制。随着支持人工智能研究资金的再度锐减,研究者们再次开始反思,并且将思路逐渐从符号系统(如归纳演绎方法)转向亚符号系统(如统计学习方法)。这一时期,研究者们开始认识到感知和交互的重要性,其中影响较大 的 观 点 包 括 David Marr在其著作Vision中提出的视觉理解模型和 Rodney A.Brooks 提出的“模型可有可无,世界即是描述自身最好的模型”等。19871993 年第三次繁荣期随着现代计算机的存储能力和算力不断增强,统计学习方法逐渐成为人工智能领域的绝对主流。在人工智能的各个领域,如计算机视觉、语音识别、自然语言处理等,手工设计的模型都逐渐被统计学习模型所取代。从 2011年开始,深度学习浪潮席卷人工智能领域,终于在多个领域达到或者超越了人类水平。人工智能的第三次繁荣期,也是历史上最长的一次,至今仍未有结束的趋势。虽然许多本质问题尚未得到解决,但人工智能的诸多应用已经深刻地改变了人类社会。1993 年至今值得一提的是,深度学习并未解决人工智能的本质问题。未来,业界很可能还要经历数次低潮与革新,方能达成真正的通用人工智能。在此之前,虽然存在着关于强/弱人工智能的讨论和对科技奇异点的担忧,但业界的重心依然是人工智能算法的研发。17从古早阶段开始,人工智能就分为不同的流派。人工智能的先驱们,探索和论证着通向真正智能的崎岖道路。有趣的是,有影响力的三大流派(逻辑演绎流派、归纳统计流派、类脑计算流派)从人工智能创立之初便存在,时至今日也未由其中一派彻底统一。三大流派各有优劣势。类脑计算流派的目标最为宏远,但在未得到生命科学的支撑之前,难以取得实际应用。归纳演绎流派的思考方式与人类相似,具有较强的可解释性。由于对数据和算力的依赖较少,归纳演绎流派成为人工智能前两次繁荣的主角。随着学界对人工智能困难程度的理解逐渐加深,数理逻辑方法的局限性被不断放大,并最终在第三次繁荣期中,逐渐让位于统计学习的“暴力美学”。这种“抛弃人类先验,拥抱数据统计”的思想,在深度学习出现后被推向高峰。1.2 人工智能发展趋势的总体研判18值得强调的是,深度学习是时代的产物。如果没有与大数据(存储设备和移动互联网的发展)和大算力(尤以 GPU 的飞速演进为代表)的支持,深度学习就不可能在短短的 3-5 年间占领人工智能的大部分领域。而随着人工智能模型的参数越来越多,训练所需的数据集规模也越来越大。为了适应巨大的参数空间和数据量,研究者们提出了层次化建模和分散表示的思想,使得复杂数据匹配的效率和精度获得提升,从而大大促进了特征学习。从技术的角度看,深度学习的核心是深度神经网络:通用的骨干网络配合特定目的的头部网络,使得深度学习统一了各个子领域内的不同问题。例如,在计算机视觉领域,彼此十分相似的深度神经网络已经成为图像分类、物体检测、实例分割、姿态估计等具体问题的通用框架;而在自然语言处理领域,一种被称为 Transformer 的模块也被大量使用,研究者们得以建立起通用的语言模型。然而,从本质上看,深度学习依然没有跳出统计学习的基本框架:特征抽取和模板匹配。相比于人类基于知识的推断,这种方式无疑是低效的。在人工智能进入千行百业的大背景下,这种设计理念必将导致人工智能算法的通用性受限,因为对于任何新的概念乃至新的实体,算法都需要专门的训练数据来提供相关的信息,而在没有基础模型支撑的情况下,开发者们必须从头开始完成收集数据、训练模型、调试模型、优化部署等一系列操作。对于大部分人工智能开发者而言,这无疑是重大的挑战;同时,这也使得人工智能算法的开发成本居高不下,难以真正惠及细分行业,尤其是中小型企业。AI19回顾历史,2011 年前后,正是传统统计学习方法的鼎盛时期,在计算机视觉领域甚至出现了参数量超过10亿的词袋分类模型即使在 2021 年,10 亿参数的计算机视觉模型也足以被称为大模型。然而,2012 年左右,深度神经网络仅用 6000 万参数,即彻底击败词袋分类模型,引领计算机视觉发展至今。深度神经网络之于词袋分类模型,本质上是在特征匹配效率上产生了突破;我们猜测,在大模型发展到一定程度时,会产生另一个维度的突破,从而使得统计学习方法“进化”至下一阶段。目前看来,这个突破有可能产生于大模型与知识的结合。根据实践经验,预训练大模型加持下的人工智能算法(包括计算机视觉、自然语言处理等),相比于普通开发者从头搭建的算法,精度明显上升、数据和计算成本明显下降,且开发难度大大降低。以计算机视觉为例:在 100 张图像上训练基础物体检测算法,原本需要 8 块 GPU 运行 5 个小时、1 名开发者工作 1 个星期才能完成,而在预训练模型的支持下,只需 1 块 GPU 运行 2 个小时,而几乎不需要人力干预。综合人力、算力开销研判,上述案例的开发成本节约至原先的10%甚至 1%。在下一个划时代的计算模型出现以前,大模型将是人工智能领域最有效的通用范式,并将产生巨大的商业价值对大模型的研究,将有可能启发下一个通用计算模型预训练大模型是解决上述问题的有效手段。预训练大模型是深度学习时代的集大成者,分为上游(模型预训练)和下游(模型微调)两个阶段。上游阶段主要是收集大量数据,并且训练超大规模的神经网络,以高效地存储和理解这些数据;而下游阶段则是在不同场景中,利用相对较少的数据量和计算量,对模型进行微调,以达成特定的目的。我们将在第 2 章更详细地介绍预训练大模型的方法论。虽然预训练大模型看起来很难导向真正的人工智能,但我们做出两个重要的判断:20综上所述,预训练大模型是现阶段人工智能的集大成者,代表了统计学习流派的最高成就。在新一代技术未出现前,它将是人工智能研究和开发的最强武器。事实上,围绕大模型的研发和落地,中美之间已经展开了新一轮的竞争。美国中国Turing-NLG(微软,EN)参数:170 亿数据:1-5 百 GB资源:300-500GPUs盘古(华为)NLP&CV&多模态&科学计算参数:1000 亿数据:40TB 文本(更新)资源:鹏城云脑悟道 2.0(北京智源)NLP&多模态参数:1.75 万亿数据:4.9TB 图像,文本资源:神威超算文心 ERNIE 3.0(百度)NLP参数:100 亿数据:4TB 文本资源:384 V100 GPUsM6(阿里)多模态参数:100 亿数据:1.9TB 文本 292GB 图像资源:128 A100 GPUs紫东太初(中科院自动化所)多模态参数:千亿级数据:文本、图像、音频GPT-3(OpenA,EN)参数:170 亿数据:570GB资源:10000 V100 GPUsText Sum.(OpenAI,EN)参数:67 亿数据:12 万文章资源:微调使用 320GPU-DaysSwitch-C(谷歌,EN)参数:1.6 万亿数据:750GB资源:32TPU 核威震天(微软-英伟达,EN)参数:5300 亿数据:-资源:-PaLM(谷歌,EN)参数:5400 亿数据:-资源:4096 TPU-v3通过大模型构筑 AI 技术竞争壁垒是当前中美 AI 技术竞争的热点盘古大模型在商业落地走在最前列1盘古+工作流实现低算力,低门槛,边学边用的使用模式结合 ModelArts 和智能体工作流能力,实现轻量化交付借助华为已有行业基础,构筑行业大模型23盘古大模型家族介绍2123基于上述研判,华为云团队于2020年立项AI大模型,并且于2021年4月首次以 盘古预训练大模型(简称盘古大模型)的名称对外发布。盘古大模型集成了华为云团队在 AI 领域数十项研究成果,并且受益于华为的全栈式 AI 解决方案,与昇腾(Ascend)芯片、昇思(MindSpore)语言、ModelArts 平台深度结合。本章简要介绍盘古大模型的若干组成部分,剖析构建大模型的关键技术。计算机视觉的主要目标,是设计出能够识别视觉信号,并且对其进行各种处理和分析的程序。换句话说,计算机视觉是研究计算机如何去“看”的学科。其中,较为典型的任务包括图像分类、物体检测、物体分割、物体追踪、姿态估计等。下图展示了图像分类中最著名的 ImageNet 数据集(超过 2 万个物体类别)和 MS-COCO 数据集(包括检测、分割等多种任务)。2.1 视觉大模型The ImageNet dataset15M images,21K categories,1.5TBThe MS-COCO datasetdetection,segmentation,pose estimation,etc.24在计算机中,视觉信号一般以“密集采样强度”的方式存储:不同方向入射的光线在每个信道(如红绿蓝)上的强度被记录下来,用于呈现图像的基本内容。图像中的每个基本单元被称为像素很显然,这些像素并不能代表基本的语义信息,因而图像的基本存储形态和人类能够理解的语义之间,存在很大的差距。在学界,这种差距被称为“语义鸿沟”,这也是几乎所有计算机视觉研究所需要处理的核心问题。进一步探究图像的存储形态,我们会发现图像信号的若干特点:鉴于上述特点,基于深度神经网络的预训练大模型就成为了计算机视觉落地的最佳方案之一。预训练过程能够一定程度上完成视觉信号的压缩,深度神经网络能够抽取层次化的视觉特征,而预训练结合微调的范式则能够应对丰富多变的域。以下,我们讲述盘古视觉大模型的整体思路和技术方案。内容较复杂信息密度低域丰富多变图像信号的基本单位是像素,但是单个像素往往不能表达语义。图像识别的任务,就是构建特定函数,使得像素级输入能够产生语义级输出。这种函数往往非常复杂,很难通过手工方式定义。图像信号能够忠实地反映事物的客观表征;然而其中相当部分的数据被用于表达图像中的低频区域(如天空)或者无明确语义的高频(如随机噪声)区域。这就导致了图像信号的有效信息密度较低,特别是相比于文本信号而言。图像信号受到域的影响较大,而且这种影响通常具有全局性质,难以和语义区分开来。例如,同样的语义内容,在强度不同的光照下,就会体现出截然不同的表征。同时,相同的物体能够以不同的大小、视角、姿态出现,从而在像素上产生巨大差异,为视觉识别算法带来困难。252.1.1 数据收集图像是一种复杂的非结构化数据,包含丰富的语义信息。现如今,还没有任何一种方法能够对图像数据的数学规律进行准确的描述,因而人们只能通过收集大量的数据,来近似现实中图像数据的分布。2009 年出现的 ImageNet 数据集是计算机视觉领域的重要里程碑,它使得训练、评估大规模图像处理方法成为可能。随着计算机视觉技术的进步和更多应用的出现,ImageNet数据集的局限性逐渐显现出来,包括规模、复杂性等。为了解决这一问题,我们必须收集更大规模、更加复杂的图像数据,而这也是业界的一致趋势。我们通过多种渠道收集图像数据,包括但不限于公共数据集合下载、自有数据集合扩充、各搜索引擎关键字爬取、以图搜图、视频图像抽帧等。从这些原始数据中,我们筛除了低分辨率、低曝、过曝、简单背景等低质量图像数据,再通过已有预训练视觉模型进行重复图像的判断和去除,最终保留超过 10 亿张高质量图像数据,占据约 40TB 空间。10 亿+图像数据40 TB存储空间覆盖自动驾驶,电力,铁路,遥感等262.1.2 预训练方法我们使用的神经网络模型覆盖了计算机视觉领域最为常见的卷积网络和 transformer 架构,两者既可以分开使用,也可以按需结合以达到更好的效果。利用自动机器学习算法,我们能够支持并调用不同大小的神经网络,其中最大的计算模型具有接近 30 亿参数,最小的模型只有数十万参数,其大小相差超过 1000 倍,为适配不同的视觉任务提供了可能性。我们收集的训练数据大部分来自互联网,不仅具有相当程度的噪声,而且不包含准确的语义标签。为了充分利用这些数据,我们设计了自监督学习方法,即通过某种或者某几种代理任务,教会模型如何理解视觉数据,在没有语义标签的情况下也能拟合复杂的数据分布。特别地,我们在对比学习的基础上优化了相关代理算法,业界首创在对比度自监督学习中引入等级化语义相似度,即挑选那些距离相应聚类中心更近的最近邻作为正样本,并且在拉近语义相似样本的时候引入了混合样本增强,以减少样本选取过程中的噪声影响。在此基础上,我们拓展自监督学习算法中正样本的数目,使得正样本集合能够更加高效地被聚集,同时避免受到大量负样本优化的影响。我们采用的预训练算法(发表于 TPAMI 上)的简略示意图如下所示:(注:基于等级化语义聚集的对比度自监督学习)Encoder qEncoder KCandidates in DatasetBottleneckBottleneckBottleneckBottleneckBottleneckMLPMLPConvBNReLUConvBNReLUConvConvConvConvConvConvBNBNBNBNBNBNReLUReLUConvBNReLUConvBNReLUMixMixed SampleAnchor SamplePositive SampleSemanticSearch272.1.3 效果展示盘古视觉大模型在 ImageNet 数据集的线性分类评估上,首次达到了与全监督相比拟的结果。同时,受益于更好的语义对齐效果,我们的方法在小样本学习上表现优异:使用 ImageNet上 1%和 10%的 标 签 训 练,我 们 的 方 法 达 到 了 66.7%和75.1%的分类精度,均显著超越对比方法。以此方法为基础,我们设计了具有 10 亿参数量的基础模型,并在超过 10 亿张无标注图像组成的数据集上进行预训练。所得到的模型,在ImageNet 上 达 到 了 88.7%的分类精度,而 1%标签的半监督学习精度也达到 83.0%。同时,盘古大模型在超过 20 项下游任务上进行了测试,展现出良好的泛化能力,如下表所示。盘古预训练模型:分类性能比较盘古预训练模型:检测性能比较数据集业界最佳模型盘古预训练模型1Aircraft(飞行器)90.4389.322CUB-200-2011(鸟类)86.9091.803DTD(纹理)80.0585.004EuroSAT(卫星图块)98.8598.985Flowers102(花)97.0799.696Food101(食物)92.2194.587Pets(动物)95.2995.918SUN397(场景)71.5178.929StanfordCars(车)92.4894.0910StanfordDogs(狗)87.4191.2811Average89.2291.96数据集业界最佳模型盘古预训练模型1VOC(自然场景)72.276.62Comic(风格变换)35.638.03Clipart(风格变换)57.561.04Watercolor(风格变换)34.436.95DeepLesion(医疗)36.738.16Dota 2.0(遥感)21.221.07Kitti(自动驾驶)29.632.98Wider Face(人脸)35.336.39LISA(红绿灯)43.542.710Kitchen(厨房场景)53.655.0average41.9643.8528自然语言,是人类进化过程中形成的一种高效的存储和交换信息的载体。人们在使用自然语言交流时,既可以使用“听说”的方式,也可以使用“读写”的方式。这就意味着,对自然语言的理解和使用可以分为两个部分,即对于文字和音频的处理,合成为语音语义处理。在人工智能领域,这两个子课题分别被称为自然语言处理和语音处理。与计算机视觉类似,语音语义处理的目标,就是让机器学会像人一样理解并使用文字和声音,与人类或者其他智能体交流。如图所示,自然语言处理和语音处理都可以分为理解和生成两个部分。其中,“理解”的目标是让机器理解人类语言背后的语义信息,“生成”的目标让机器使用人类语言表达自己的意图。自然语言处理和语音处理的区别在于,前者主要处理文本信息,后者主要处理音频信号。大部分情况下,文本和音频信号具有很强的关联性,但是某些情况下,它们也可以表达各自擅长,而另一种载体难以表达的事物(如音乐难以用文本准确表达出来)。2.2 语音语义大模型音频语义语义文本床前明月光语音识别(ASR)文本理解语音合成(TTS)文本生成床前明月光文本音频29语音语义处理的一个核心问题,是将文字和声音表达为机器容易理解和处理的形式。在深度学习诞生之前,人们主要使用特征工程的方式,通过人工定义一些特征函数,将文字和声音转化为特征向量。这种方法依赖专家知识,且特征很难扩展,无法规模化应用。随着深度学习技术的发展,自动学习语言的向量表示逐渐成为主流。对于“理解”任务,通常使用一个神经网络作为编码器,将语言映射到低维向量,用向量表达语义信息;而对于“生成”任务,通常再使用一个神经网络作为解码器,将低维向量映射到语言,将向量中蕴含的信息表达出来。上述编码器-解码器框架,能够用于处理文字和音频信号,其中文本编码器和音频编码器具有较大的差异,而文本解码器和音频解码器却大致相同。在深度学习时代,如何设计编码器和解码器的网络结构,以及如何学习编码器和解码器的参数,是两个关键的技术问题。在小模型时代,CNN模型和RNN模型技术占据主流,尤其是RNN中的一类被称为LSTM的模型,凭借其处理远距离依赖的能力大放异彩。然而,RNN 模型的优化不稳定、且难以并行计算,这成为了构建大规模语言模型的障碍。2017 年,基于自注意力的 Transformer 模块被提出,它结合了已有方法的优点,在速度和表达能力上都体现出巨大优势,因而迅速占领了自然语言处理和语音识别领域。随着大规模语料库的出现和自监督学习方法的成型,业界在 2018 年迎来了大规模预训练模型 BERT 并就此进入大模型时代。如今,预训练大模型凭借其出色的泛化能力和在此基础上发展的基于提示的微调技术,大大简化了各种下游任务的实现方式,推动了自然语言处理和语音识别领域的巨大发展,成为语音语义处理领域落地的最佳方案。以下,我们讲述盘古语音语义大模型的整体思路和技术方案。302.2.1 数据收集与计算机视觉领域类似,自然语言处理和语音识别也建立在大规模数据集的基础上。所谓“读书破万卷下笔如有神”,为了让模型掌握强大的语言理解和生成能力,我们需要准备海量的数据让模型进行学习,覆盖各个主题和领域。关于文本部分,我们从互联网公开爬取了 40TB 原始网页数据,并且进行解析和清洗。我们使用正则匹配等方式,过滤掉常见噪声数据,如网页标签、特殊字符、错误编码等,并且使用哈希的方法对数据进行去重,然后对数据的长度进行规范,舍弃太短的文章并切分太长的文章,以确保输入长度在合理的范围内。最终,我们得到约 647GB 文本数据,其组成如下图所示。关于语音部分,我们从互联网公开爬取了超过 7 万小时普通话音频数据,并将其转换为音频文件,共计约11TB。视频来源包括新闻播报、影视剧、综艺节目、动画等。270GB百科知识200GB新闻博客106GB文学作品71GB社交媒体2.2.2 预训练方法对于语义部分,我们使用的神经网络是基于 Transformer 结构的编码-解码器模型。编码器负责文本理解,使用双向自注意力机制,让每个词充分“观察”它两边的词,以捕获它在上下文中的语义信息。解码器负责文本生成,使用单向自注意力机制,逐词进行生成,每个词只能“看到”它前面的词,根据上文的信息来预测下一个词。31为了让模型从海量文本数据中学到语言知识,需要设计合适的学习目标。我们提出多任务融合的训练策略,以让模型同时获得理解能力和生成能力。针对理解能力,我们使用遮罩语言模型作为训练目标,即在原文中挖空,让模型做完形填空任务,例如对于“床前明月光疑是地上霜”这句话,我们从中随机选取一些位置进行挖空,如将“明月”和“霜”挖掉,模型的训练目标是将挖掉的内容预- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 人工智能 行业 训练 模型 白皮书
咨信网温馨提示:
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【Stan****Shan】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【Stan****Shan】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【Stan****Shan】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【Stan****Shan】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。
关于本文