ChatGPT:深度拆解.pdf
《ChatGPT:深度拆解.pdf》由会员分享,可在线阅读,更多相关《ChatGPT:深度拆解.pdf(20页珍藏版)》请在咨信网上搜索。
1、 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。1 证券研究报告 计算机计算机 ChatGPT:深度拆解:深度拆解 华泰研究华泰研究 计算机计算机 增持增持 (维持维持)研究员 谢春生谢春生 SAC No.S0570519080006 SFC No.BQZ938 +(86)21 2987 2036 联系人 彭钢彭钢 SAC No.S0570121070173 +(86)21 2897 2228 联系人 林海亮林海亮 SAC No.S0570122060076 +(86)21 2897 2228 行业行业走势图走势图 资料来源:Wind,华泰研究 2023 年 2 月 09 日中国
2、内地 专题研究专题研究 ChatGPT 引发引发范式革命范式革命,AI 产业发展前景可期产业发展前景可期 近期由 OpenAI 团队发布的聊天机器人软件 ChatGPT,凭借类人的语言理解和表达能力,引发 AI 产业范式革命。通过拆解 ChatGPT,我们发现:1)单一大模型或为未来 AI 训练主流方向;2)大模型训练可以积累底层语言能力,但需要大算力支持;3)预训练语言模型和 Transformer 架构是模型底层能力的根源;4)ChatGPT 商业化应用前景广阔。基于此,我们认为国产厂商或将训练出自己的 GPT 模型,AI 产业有望迎来景气周期。目前国内在模型层面具备产业基础的相关企业包括
3、:百度、商汤、云从科技等;在应用层持续推出新应用的相关企业包括:科大讯飞、金山办公、同花顺、汉王科技等;在底层基础设施和工具有布局的相关企业包括:寒武纪、景嘉微等。背景:发源于背景:发源于 OpenAI,成名于生成式语言,成名于生成式语言 OpenAI 于 2015 年在旧金山成立,主要从事人工智能研究。2019 年 OpenAI收到微软注资 10 亿美元,就 Azure 业务开发人工智能技术。2020 年发布GPT-3 语言模型,由微软获得独家授权。2022 年,OpenAI 在 GPT-3.5 的基础上推出了 ChatGPT,强化了人工智能的语言对话能力,引起社会广泛关注。2023 年,微
4、软拟对 OpenAI 追加数十亿美元投资,利用自身算力基础设施资源发挥与 OpenAI 业务协同效应,深入布局生成式 AI 技术。原理:原理:AI 大模型里程碑式的胜利大模型里程碑式的胜利 ChatGPT 采用监督学习+奖励模型进行语言模型训练,主要包括三个步骤:1)第一阶段:训练监督策略模型。在 ChatGPT 模型的训练过程中,需要标记者的参与监督过程;2)第二阶段:训练奖励模型。借助标记者的人工标注,训练出合意的奖励模型,为监督策略建立评价标准;3)第三阶段:采用近端策略优化进行强化学习。通过监督学习策略生成 PPO 模型,将最优结果用于优化和迭代原有的 PPO 模型参数。我们认为,Ch
5、atGPT 的训练过程采用单一模型+小样本学习+人类微调监督方式进行,取得了良好效果,验证了 AI 大模型应用前景,大模型路线有望成为未来主流。模型:三个维度拆解模型:三个维度拆解 GPT 模型特征模型特征 我们认为,ChatGPT 的成功离不开 AI 大模型的加持,强大的算法训练模型,使得 ChatGPT 在迭代中获得实现接近自然语言的表达能力。拆解模型来看:1)ChatGPT 使用单一大模型,积累强大底层通用能力,背后来自微软丰富的算力资源支持,并通过引入监督学习,有效填补了大模型同质化漏洞;2)模型的具体训练模式,采用的是预训练语言模型,而预训练语言模型无需人工标签,具备高效性、通用性与
6、正则化等内生优势,且二代模型具备上下文交互能力,推动模型语义理解能力升级;3)Transformer 是大模型高效运行的根基,天然适合高并发训练,通过编码器堆叠实现底层架构搭建。应用:打开应用:打开 AIGC 应用新局面应用新局面 ChatGPT 属于 AIGC 的具体应用,相比过去的 AI 产品,在模型类型、应用领域、商业化等层面呈现出新的特点。1)技术方面:ChatGPT 属于自然语言处理领域,与早期的自然语言技术相比,ChatGPT 采用大模型进行训练,并加入人工反馈增强学习(RLHF)方法,实现了效果提升;2)应用方面:ChatGPT 属于生成式 AI,相比于分析型 AI,不局限于已有
7、的内容,已在文艺创作,代码处理,营销等多个创造性场景内得到应用;3)商业化方面:ChatGPT 在商业化方面彰显出强于以往 AI 应用的潜力,一方面用户数快速增长,另一方面得到了微软为代表的科技巨头的支持,应用有望快速推广。风险提示:宏观经济波动;下游需求不及预期。(33)(24)(16)(7)2Feb-22Jun-22Oct-22Feb-23(%)计算机沪深300 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。2 计算机计算机 正文目录正文目录 背景:发源于背景:发源于 OpenAI,成名于生成式语言,成名于生成式语言.3 原理:原理:AI 大模型里程碑式的胜利大模型里程碑式的
8、胜利.5 模型:三个维度拆解模型:三个维度拆解 GPT 模型特征模型特征.7 维度一:单一大模型.7 维度二:预训练语言模型.10 维度三:Transformer 特征抽取器.12 应用:打开应用:打开 AIGC 应用新局面应用新局面.14 技术新:Transformer 架构+RLHF,NLP 领域迎来新突破.14 应用新:生成式 AI 应用于创造性工作.15 商业化潜力:巨头纷纷发力,商业化潜力较大.16 风险提示风险提示.17 rYhUiYnVcVrVnMqR9PaOaQoMrRnPsRkPnNtRiNrRzQ9PrQuMxNpOnQxNmQmR 免责声明和披露以及分析师声明是报告的一部
9、分,请务必一起阅读。3 计算机计算机 背景:背景:发发源于源于 OpenAI,成名于生成式语言,成名于生成式语言 OpenAI是一家是一家世界领先的世界领先的非非营利营利性人工智能研究公司性人工智能研究公司。OpenAI于2015年在旧金山成立,是一家非营利的人工智能研究公司,公司的目标是以最有可能造福全人类的方式推进人工智能,而不受财务回报需求的约束。OpenAI 创始人背景深厚,由埃隆 马斯克与硅谷孵化器 Y Combinator 投资人山姆 阿尔特曼等人联合创立。公司研究人员经验丰富,包括前Google Brain 研究科学家伊利亚苏茨凯弗与前 Stripe 首席技术官格雷格布罗克曼等世
10、界一流研究工程师与科学家。微软持续增资,布局生成式微软持续增资,布局生成式 AI 技术技术。2018 年,随着特斯拉对 AI 的应用深入,为避免潜在利益冲突,马斯克主动离任董事会,仅保留捐资人和顾问的身份。由于 AI 训练花费金额巨大,2019 年公司从非营利性公司转向部分盈利公司,成立了 OpenAI LP 利润上限子公司,即任何对 OpenAI LP 投资的收益都将统一转移至一家非盈利公司,回报达到投资的 100 倍后进行利润分配。同年,OpenAI 收到微软注资 10 亿美元,就 Azure 业务开发人工智能技术。2020 年发布 GPT-3 语言模型,由微软获得独家授权。2022 年发
11、布 ChatGPT 的自然语言生成式模型,带来更大潜在应用空间。2023 年,微软拟对 OpenAI 追加数十亿美元投资,利用自身算力基础设施资源发挥与 OpenAI 业务协同效应,深入布局生成式 AI 技术。OpenAI 产品发布密集,产品涵盖产品发布密集,产品涵盖音频制作音频制作、图像生成和、图像生成和语言语言对话人工智能。对话人工智能。2016 年,推出用于开发和比较强化学习算法的工具包 OpenAI Gym,加速公开社会中 RL 研究进度。同时推出 Universe 软件平台,用于测试和训练 AI 在全球游戏、网站和其他应用程序中的智能程度。2019 年,OpenAI 推出深度神经网络
12、 MuseNet,可以使用 4 种不同的乐器生成 10 分钟的音乐作品以及最终模型版本的 GPT-2。2020 年,研发团队在 GPT-2 的基础上拓展参数,发布了 GPT-3 语言模型。2021 年,发布了转换器语言模型 DALLE,从文本描述生成图像。2022 年,OpenAI 在 GPT-3.5 的基础上推出了 ChatGPT,强化了人工智能的语言对话能力,引起社会广泛关注。图表图表1:OpenAI 产品产品 资料来源:OpenAI 官网、华泰研究 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。4 计算机计算机 OpenAI当前盈利主要通过付费当前盈利主要通过付费 API接
13、口,并尝试拓展盈利模式。接口,并尝试拓展盈利模式。目前,OpenAI提供GPT-3、Codex 以及 DALLE 的 API 数据接口,分别执行用户自然语言任务、自然语言转换为代码的任务以及创建和编辑图像的任务。API 接口根据类型不同以流量收费,比如图像模型以分辨率分类按张数收费,语言模型则以基于的子模型型号按字符数收费。OpenAI API 盈利情况较好,据路透社数据,OpenAI 2022 年收入数千万美元,公司预计 2023 与 2024 年收入分别为 2 亿美元和 10 亿美元。同时,OpenAI 正尝试拓展自身盈利模式,2023 年 1 月试点推出订阅制 ChatGPT Plus,
14、收取每月 20 美元的会员费以得到各类优先服务。图表图表2:OpenAI API 价格价格 模型类型模型类型 细分细分 价格(美元)价格(美元)模型类型模型类型 细分细分 训练价格(美元)训练价格(美元)使用价格(美元)使用价格(美元)图像模型 10241024 0.02/张 微调模型 Ada 0.0004/千字符 0.0016/千字符 512512 0.018/张 Babbage 0.0006/千字符 0.0024/千字符 256256 0.016/张 Curie 0.0030/千字符 0.0120/千字符 语言模型 Ada 0.0004/千字符 Davinci 0.0300/千字符 0.1
15、200/千字符 Babbage 0.0005/千字符 Curie 0.0020/千字符 模型类型模型类型 细分细分 价格(美元)价格(美元)Davinci 0.0200/千字符 嵌入模型 Ada 0.0004/千字符 资料来源:OpenAI 官网、华泰研究 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。5 计算机计算机 原理原理:AI 大模型里程碑式的胜利大模型里程碑式的胜利 ChatGPT 采用采用监督学习监督学习+奖励模型进行语言模型训练奖励模型进行语言模型训练。ChatGPT 使用来自人类反馈的强化学习(RLHF)来训练该模型。首先使用监督微调训练了一个初始模型:人类 AI
16、 训练员提供对话,他们在对话中扮演双方用户和 AI 助手。其次,ChatGPT 让标记者可以访问模型编写的建议,以帮助他们撰写回复。最后,ChatGPT 将这个新的对话数据集与原有数据集混合,将其转换为对话格式。具体来看,主要包括三个步骤:1)第一阶段:训练监督策略模型)第一阶段:训练监督策略模型。在 ChatGPT 模型的训练过程中,需要标记者的参与监督过程。首先,ChatGPT 会从问题数据集中随机抽取若干问题并向模型解释强化学习机制,其次标记者通过给予特定奖励或惩罚引导 AI 行为,最后通过监督学习将这一条数据用于微调 GPT3.5 模型。2)第二阶段:训练奖励模型)第二阶段:训练奖励模
17、型。这一阶段的主要目标,在于借助标记者的人工标注,训练出合意的奖励模型,为监督策略建立评价标准。训练奖励模型的过程同样可以分为三步:1、抽样出一个问题及其对应的几个模型输出结果;2、标记员将这几个结果按质量排序;3、将排序后的这套数据结果用于训练奖励模型。3)第三阶段:采用近端策略优化进行强化学习)第三阶段:采用近端策略优化进行强化学习。近端策略优化(Proximal Policy Optimization)是一种强化学习算法,核心思路在于将 Policy Gradient 中 On-policy 的训练过程转化为Off-policy,即将在线学习转化为离线学习。具体来说,也就是先通过监督学习
18、策略生成 PPO模型,经过奖励机制反馈最优结果后,再将结果用于优化和迭代原有的 PPO 模型参数。往复多次第二阶段和第三阶段,从而得到参数质量越来越高的 ChatGPT 模型。图表图表3:ChatGPT 模型原理模型原理 资料来源:OpenAI 官网、华泰研究 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。6 计算机计算机 从 ChatGPT 的训练原理中,我们不难发现,这一训练过程存在几个特点:1)采用的是单一大模型)采用的是单一大模型。在 GPT 模型兴起之前,大多数 AI 模型主要是针对特定应用场景需求进行训练的小模型,存在通用性差、训练数据少、适应范围小的弊端。而我们看到
19、,ChatGPT 虽然在过程中使用了奖励模型等辅助手段,但最终用于实现自然语言理解和生成式功能的主模型只有一个,但却在语义理解、推理、协作等方面表现出了更强能力。因此,我们认为,ChatGPT 的成功,验证了参数增长、训练数据量增大,对 AI 模型的重要意义。2)采用的是采用的是小样本学习小样本学习方法方法。在小样本学习(Few-shot Learning)方法下,AI 预训练模型在不必使用大量标记的训练数据,就可以建立起比较通用的泛化能力。简单来说,小样本学习即是在给定有限信息和较少训练数据的情况下,尝试对总体规律进行理解和预测,这一过程类似于“学习如何去学习”。对于小样本学习在 ChatG
20、PT 中的应用,我们认为,这一方法解决了大模型数据标注工作量巨大的问题,是模型得以迅速迭代的基础。3)采用人类反馈微调监督学习采用人类反馈微调监督学习。ChatGPT 是从 GPT3.5(即 InstructGPT)改进而来的版本,相比于前代,ChatGPT 主要变化在于采用了人类反馈机制,对监督学习过程进行微调。本质上来说,无论是大模型还是小样本学习,解决的目标都是提升训练的效率,但真正令ChatGPT 实现结果准确、合理的关键技术,还是在于加入了人类反馈。据 Long Ouyang等人 2022 年发表的Training language models to follow instruct
21、ions with human feedback,InstructGPT 仅用 13 亿个参数就实现了比 1750 亿个参数的 GPT-3 更优的输出解雇,显著提升了真实性、减少了有害信息的输出。免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。7 计算机计算机 模型模型:三个维度三个维度拆解拆解 GPT 模型模型特征特征 拆解拆解 GPT 模型可以帮助理解模型可以帮助理解 ChatGPT 之所以强大的原因之所以强大的原因。从前面的讨论中,我们发现,ChatGPT 的成功离不开 AI 大模型的加持,强大的算法训练模型,使得 ChatGPT 在迭代中获得实现接近自然语言的表达能力。而这
22、一切的核心,都来自一个模型:GPT 模型。因此,我们以 GPT 模型为核心,从三个维度出发去拆解 GPT 模型,以此进一步挖掘 ChatGPT 强大背后的原因。维度一:单一大模型维度一:单一大模型 ChatGPT 使用单一大模型,积累强大底层通用能力使用单一大模型,积累强大底层通用能力。对于 ChatGPT 所用到的训练模型,从模型体量来看,属于 AI 单一大模型的范畴。对比传统 AI 训练模型,单一大模型的“大”体现在:1)更多的模型参数量;2)更大的数据处理量;3)更大的训练计算量。模型体量的增大,带来的最直接变化,在于 AI 模型通用能力的跨越式提升。传统的 AI 训练方法,大多以单一知
23、识领域的应用为目标,主要使用特定领域有标注的数据进行模型训练,模型通用性差,如果更换使用场景,往往需要进行重新训练。而大模型的训练,一是能使用的数据来源更加广泛,可用数据量更大;二是对标注要求更低,只需要对数据进行微调甚至不调就可以用于训练;三是输出的能力更加泛化通用,在语义理解、逻辑推理、文本表达等方面能力更出众。从通用到特殊,单一大模性从通用到特殊,单一大模性具备具备丰富的丰富的垂直领域应用潜力垂直领域应用潜力。基于对底层能力的训练,AI 大模型积累了对于数据背后特征和规则的理解,因此在进行垂直领域的时候,可以做到“举一反三”。这一过程,与人类学习知识的过程类似,都是先学习如何去学习,再构
24、建听说读写能力,最后在不同学科深入探索。AI 大模型也是一样,在完成通用能力积累之后,可以将学习能力移植到需要应用的特定领域,通过投喂垂直领域数据,可以使模型达到目标场景所需的性能。图表图表4:单一大模性具备丰富的垂直领域应用潜力单一大模性具备丰富的垂直领域应用潜力 资料来源:On the Opportunities and Risk of Foundation Models,李飞飞等,2021、华泰研究 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。8 计算机计算机 大大模型训练模型训练需要大算力支持需要大算力支持,ChatGPT 坐拥丰富算力资源坐拥丰富算力资源。我们认为,从
25、大模型自身的发展过程来看,参数量的变化是一个非常值得关注的指标。从最早的 ResNet、Inception 等模型,到如今的 GPT,模型参数量不断增长。2018 年前后 OpenAI 先后推出 Transformer 和GPT-1 模型,参数量来到 1 亿级别。随后谷歌提出 3 亿参数的 BERT 模型,参数量再次增长。2019、2020 年,OpenAI 加速追赶,陆续迭代出 GPT-2、GPT-3 模型,参数量分别为15 亿、1750 亿,实现模型体量质的飞跃。另一方面,参数运算需要大规模并行计算的支持,核心难点在于内存交换效率,取决于底层 GPU 内存容量。以英特尔为例,从 2017
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- ChatGPT 深度 拆解
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【宇***】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【宇***】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。