2023年大模型合规白皮书.pdf
《2023年大模型合规白皮书.pdf》由会员分享,可在线阅读,更多相关《2023年大模型合规白皮书.pdf(81页珍藏版)》请在咨信网上搜索。
1、大模型合规白皮书20232023 年 11 月大模型合规白皮书金杜律师事务所上海人工智能研究院华为技术有限公司上海昇思AI框架&大模型创新中心2023年11月前言大模型作为人工智能发展脉络中的里程碑,引发了新一轮的科技创新浪潮,其以强大的计算能力和深度学习技术,极大地提高了内容生产效率,促进内容生产方式颠覆式变革。各行各业纷纷布局大模型应用,把握智能化发展的机遇。然而,大模型也面临隐私泄露、侵犯第三方权益以及违背伦理等潜在风险,引发了社会各界的关注和担忧。随着大模型的广泛应用,加快完善大模型的立法监管以确保大模型的应用与发展符合伦理道德和社会价值观,推动人工智能科技的健康发展变得迫在眉睫。世界
2、上主要国家和地区均着手并加快完善大模型相关的法律监管。例如,欧盟以人工智能法案为核心,结合大模型可能涉及的其他领域的立法,逐步建立起专项法案为主、现存法规为辅的人工智能法律监管框架;美国对于人工智能大模型的立法较为分散,各州分别各自推进人工智能立法,联邦政府则试图在现有的立法框架及监管规则内对大模型及人工智能进行规制,但同时,人工智能相关的联邦专项立法提案也在推进当中。我国围绕网络安全、数据安全、个人信息保护等重点领域制定了法律法规,并及时跟进人工智能技术创新发展态势,先后针对互联网信息推荐、生成式人工智能等技术领域出台了管理办法,建立了法律法规和标准规范相协调的人工智能监管制度体系。在此背景
3、下,本白皮书在我国人工智能法律监管框架下进一步梳理了大模型相关方的合规义务及要点,并展望未来大模型法律监管体系的发展趋势与特征,对政府、企业、社会共建大模型治理体系提出切实建议,从而为社会各界了解大模型立法最新动态和立法趋势提供有价值的参考,并为相关单位开展大模型业务提供法律解读及合规指引,保障大模型相关业务的合规经营以及行业的健康规范发展。目录前言一、大模型的发展历程(一)早期模型的探索与局限性8(二)深度学习的崛起11(三)GPT 等代表性大模型的影响121.大模型带来的效率与准确度革命142.大模型带来的机会与挑战15二、全球大模型监管现状(一)主要国家和地区加快完善大模型监管171.欧
4、盟172.美国253.英国35(二)我国对于大模型的监管现状381.立法现状382.合规要素473.大模型业务中各方合规义务一览表594.运营角度的其他考量61三、未来展望与发展建议(一)未来展望:大模型合规的前沿701.大模型技术创新发展与合规风险并存702.大模型合规框架走向标准化与国际化703.社会文化和伦理逐渐与合规体系相融714.行业应用面临不同合规挑战与监管725.治理路径分阶段、有弹性地构建73(二)发展建议:构筑大模型合规生态741.政府推动构建行业新秩序742.企业创新与责任担当783.社会组织加强协同合作808大模型合规白皮书一、大模型的发展历程(一)早期模型的探索与局限性
5、从早期的符号逻辑到现代的深度学习1模型,AI 领域经历了数十年的探索和迭代,为后续突破打下了坚实基础。随着大数据的发展和 AI 计算能力的爆炸式增长,深度学习模型的崛起显得尤为突出。然而,尽管这些模型在特定任务上取得了令人瞩目的成就,其在初期也面临着许多局限性,如存在数据依赖、计算消耗大、缺乏可解释性等。这些局限性不仅为 AI 领域带来技术挑战,也引发了对模型偏见、安全性和应用范围的深入思考。1956 年 6 月举行的达特茅斯夏季人工智能研究项目,被广泛认为是人工智能作为一个研究学科的开端。自“人工智能”概念被提出,大模型的发展经历了三个阶段:早期发展期(1956-2005):该阶段主要是传统
6、神经网络模型的阶段,例如循环神经网络(RecurrentNeuralNetwork,“RNN”)2、卷积神经网络(ConvolutionalNeuralNetworks,“CNN”)3。起初,AI发展主要基于小规模的专家知识,然后逐渐转向机器学习4,1980年和1998年诞生的CNN和LeNet-55奠定了深度学习模型的基础。快速成长期(2006-2019):该阶段是全新的神经网络模型阶段,模型的发展方向主要聚焦长序列的处理和计算效率的提升,以Transformer6架1深度学习(Deeplearning)是机器学习(Machinelearning)中的一类算法,指利用多层神经网络,模仿人脑处
7、理信息的方式从原始输入中逐步提取和表达数据的特征。https:/en.wikipedia.org/wiki/Deep_learning,最后访问于 2023 年 11 月22 日。2循环神经网络(RecurrentNeuralNetwork,RNN)是具有时间联结的前馈神经网络(FeedforwardNeuralNetworks),特点是必须按顺序处理,并且上一层的神经细胞层输出和隐藏状态具有较大的权重影响下一层的运算。循环神经网络必须完成上一步才能进行下一步,只能串行不能并行,因此循环神经网络具有“短时记忆”的特点,技术上把这个现象称为梯度消失或梯度爆炸,循环神经网络不擅长处理和捕捉长文本中
8、的语义。https:/en.wikipedia.org/wiki/Recurrent_neural_network,最后访问于 2023 年 11 月 22 日。3卷积神经网络(ConvolutionalNeuralNetworks,CNN)是一类包含卷积计算且具有深度结构的前馈神经网络(FeedforwardNeuralNetworks),是 深 度 学 习(Deeplearning)的 代 表 算 法 之 一。https:/en.wikipedia.org/wiki/Convolutional_neural_network,最后访问于 2023 年 11 月 22 日。4机器学习(Mach
9、inelearning),作为人工智能的一个分支,是指不需要进行显式编程,而由计算系统基于算法和数据集自行学习,做出识别、决策和预测的过程。https:/en.wikipedia.org/wiki/Machine_learning,最后访问于 2023 年 11 月22 日。5LeNet 又称 LeNet-5,由 YannLecun 提出,是一种经典的卷积神经网络,是现代卷积神经网络的起源之一。https:/en.wikipedia.org/wiki/LeNet,最后访问于 2023 年 11 月 22 日。6Transformer 是一种基于注意力机制的序列模型,最初由 Google 的研究
10、团队提出并应用于机器翻译任务。9大模型合规白皮书构的出现为代表。从2013年的Word2Vec7到2017年的Transformer,都标志着深度学习模型正走向一个全新的时代。在该阶段,如GPT8和BERT9等预训练模型逐渐成为主流。全面爆发期(2020-至今):该阶段是预训练大模型阶段。以GPT为代表,预训练大模型处于快速发展的阶段,特别是OpenAI10推出的GPT-3和GPT-4,标志着大模型技术正迈向新高度。机器学习有三种主要的方式,分别是监督学习、无监督学习、强化学习。监督学习(SupervisedLearning):“模板规范”(投喂好的资料),我们向模型投喂带有标签的数据(包括数
11、据特征和期望的输出值),让算法学习输入和输出之间的映射关系。经典的监督学习包括分类和回归。分类:例如学习大量猫和狗的图片和标签,当模型接收新的动物图片时可以将其根据特征识别是猫还是狗;回归:例如学习猫的产地、毛色、习性等特征,并将猫的价值作为输出标签进行训练,当模型接收新的猫咪图片时可以根据特征预测猫的价值。无监督学习(UnsupervisedLearning):“开卷有益”(多投喂资料),我们向模型投喂不带标签的数据,让模型自行寻找其中的规律,并进行处理。经典的无监督学习包括聚类和降维。聚类:例如学习大量房屋的信息,模型自行寻找其中的价格、面积、户7Word2vec,是一群用来产生词向量的相
12、关模型。这些模型为浅而双层的神经网络,用来训练以重新建构语言学之词文本。https:/en.wikipedia.org/wiki/Word2vec,最后访问于 2023 年 11 月 22 日。8GPT,全称 GenerativePre-TrainedTransformer(生成式预训练 Transformer 模型),是一种基于互联网的、可用数据来训练的、文本生成的深度学习模型。https:/en.wikipedia.org/wiki/Generative_pre-trained_transformer,最后访问于2023 年 11 月 22 日。9BERT(BidirectionalEnc
13、oderRepresentationsfromTransformers)是一种预训练的深度学习模型,用于自然语言处理任务,基于 Transformer 架构的双向编码器,通过无监督的学习方式预训练语言表示,以便能够捕捉语言的上下文信息。10OpenAI 是在美国成立的人工智能研究公司,核心宗旨在于“实现安全的通用人工智能(ArtificialGeneralIntelligence,AGI)”,使其有益于人类。https:/en.wikipedia.org/wiki/OpenAI,最后访问于 2023 年 11 月 22 日。10大模型合规白皮书型的规律,并自动将相同类型的房屋进行汇总。降维:例
14、如学习大量房屋的信息,模型自行寻找其中用户决策最关心的因素,在保留价格和其他少量辅助数据的同时对房屋数据进行压缩,以便简化建模。强化学习(ReinforcementLearning):“创意引导”(进行条件反射),我们向模型设置特定环境,让模型在其中采取行动,我们再对其进行反馈,让模型从反馈中学习以便优化下一次的行动。这一过程就类似以条件反射的方式训练小狗。在机器学习领域的早期阶段,研究者们的主要关注点是基于统计、线性回归和决策树等的简单模型。早期模型具有以下特点:简单性。早期的模型,如线性回归和逻辑回归,是基于明确的数学方程,使其容易被理解和解释。计算消耗低。由于模型的简单性,其在计算上相对
15、高效,不需要大量的计算资源。表示能力存在上限。虽然早期模型在特定方面表现良好,但其表示能力有限,尤其体现在处理复杂任务和非线性问题上。大模型早期所面临的主要局限性包括:存在数据依赖:早期的模型对于大量高质量数据有极高的依赖性。在没有足够训练数据的情况下,这些模型往往难以达到令人满意的性能,但获取、清洗、标注这些数据却昂贵且极为耗时。缺乏可解释性:大模型通常被视为“黑盒”,即模型的内部工作原理很难被理解。由于用户需要理解模型的决策过程,模型的解释性不足在很多关键领域(如医疗和司法)构成障碍。泛化能力不足:尽管早期的大模型在特定任务中表现性能优秀,但其在新数据或新场景中的泛化能力仍受到质疑。存在环
16、境和任务依赖:早期的AI模型通常需要根据特定任务定制和调11大模型合规白皮书整,这意味着为特定任务训练的模型可能难以直接应用于其他任务。模型具有一定偏见:由于训练数据往往包含现实世界的偏见,大模型可能反映这些偏见,导致应用于实际场景时出现歧视或不公平的决策。安全性和稳定性不足:由于早期大模型的复杂性,其易受到对抗性攻击或在特定条件下表现不稳定。以上局限性不仅为 AI 领域的研究者和工程师带来挑战,也为 AI 技术的未来发展和应用提出反思和探索的方向。随着技术发展,许多问题已经得到解决或缓解。(二)深度学习的崛起深度学习从其最初的简单尝试到现今所达到的辉煌高峰,不仅展现了技术的快速发展,更揭示了
17、人类在追求智慧和知识上的不懈努力。深度学习源自人类对人脑工作原理的好奇和模仿,意图借助数学和算法的力量,赋予计算机对信息的处理和认知能力。随着技术日益成熟,深度学习赋予计算机识别图像、处理自然语言甚至复杂决策的能力,不仅体现技术进步,也标志人工智能正逐步走向更加深入、广泛的应用领域,为人类生活带来无尽可能性。因此,深度学习的崛起可以被视为人类科技史上的一大里程碑。神经网络的早期探索。1957 年,FrankRosenblatt 提出感知器模型,被称为最简单的神经网络,通过简单的线性组合实现分类任务。尽管当时的应用领域有限,但其为后续神经网络的发展奠定了基础。19 世纪 80 年代,Rumel-
18、hart、Hinton 及其团队引入了反向传播算法,通过多层神经网络训练,为复杂模型和任务提供强大工具。数据与计算能力的融合。21 世纪初,互联网的广泛传播和智能设备的普及,使得数据呈现指数级增长,为深度学习提供丰富的训练数据。同时,硬件技术也在飞速发展,NVIDIA 等厂商投入 GPU 研发,其能够大幅度加速数值计算,尤其是深度学习中的矩阵运算,软硬件的进步大大加速了模型的训练过程。12大模型合规白皮书关键技术突破与模型创新。1997 年,Hochreiter 和 Schmidhuber 提出长短时记忆网络(LongShort-TermMemory,LSTM),解决了循环神经网络的梯度消失/
19、梯度爆炸的问题,使得神经网络可以更好的处理长文本内容,为序列数据的处理开辟了新天地。1998 年,YannLeCun 及其团队提出 LeNet-5,但真正让深度学习走向世界舞台的是 2012 年由 AlexKrizhevsky 等人设计的AlexNet,其在 ImageNet 挑战赛中大胜,展示了深度学习在图像处理上的潜力。2014 年,生成式对抗网络(GenerativeAdversarialNetworks,“GAN”)被提出。GAN 的原理是通过竞争机制来逐步提高生成器的准确性。2016 年横空出世击败围棋世界冠军李世石的 AlphaGo,就是基于 GAN 架构训练的模型。2017 年,
20、Google 提出 Transformer 架构,此后 BERT、GPT 等模型皆以其为基础,在自然语言处理任务中达到新高度。(三)GPT等代表性大模型的影响Transformer 架构的优点是可以并行处理输入序列的所有元素,能够捕捉长序列内容的关联关系,因此 Transformer 架构不再受到“短时记忆”的影响,有能力理解全文,进而 Transformer 成为自然语言处理的主流架构。一个原始的 Transformer 架构由编码器(Encoder)和解码器(Decorder)两部分构成,其中编码器用于将输入序列转换为一系列特征向量,解码器则将这些特征向量转换为输出序列,即:输入内容编码器
21、解码器输出内容。如果给编码器输入一句英语“Sheisastudent”,解码器返回一句对应的中文“她是一名学生”。Transformer 的架构和自注意力机制能够实现这些的关键在于“将词汇转换为词向量,并通过多头注意力机制(Multi-HeadAttention)和前馈神经网络(Feed-ForwardNetwork)两个子层进行处理”。第一步:模型对接收到的输入序列文本 Token 化,Token 可以被理解为文本的基本单元,短单词可能是一个 Token,长单词可能是多个 Token。Token 是 GPT 的收费单元,也是源于此。第二步:将 Token 转换成一个数字,成为 TokenID
22、,因为计算机语言只13大模型合规白皮书能存储和运算数字。第三步:将TokenID传入嵌入层(EmbeddingLayer),转换为词向量(WordEmbedding),词向量是一串数字。可以将这个过程想象为将一个单词放到多维空间中,每个数字就表达了这个单词某个维度的含义,一串数字所能表达和蕴含的信息量远多于 TokenID的一个数字,可以记载这个单词的词义、语法和不同语境、语序中的变化关系。第四步:对词向量的语序和语境进行位置编码,形成位置向量。上文提到语境和语序对理解词义至关重要。之后将词向量合并位置向量,将合并后的结果传给编码器,这样模型既能理解词义也能理解语境和语序。第五步:接收到上述信
23、息后,编码器中的多头注意力机制将会运作,捕捉其中的关键特征,编码器在处理时不仅会关注这个词与临近的词,还会关注输入序列中所有其他词,将输入的信息根据上下文进行调整,输出了降维后的向量。第六步:进入编码器的前馈神经网络处理,前馈神经网络“思考”之前步骤中收集的信息,并增强模型的表达能力,尝试进行预测。第七步:降维后的向量将继续传输给解码器运算。解码器具有带掩码的多头注意力机制,解码器在处理时仅关注这个词及其之前的词,遮盖输入序列中后面的内容,并结合已经生成的文本,保持未来输出文本的时间顺序及逻辑连贯性。第八步:进入解码器的前馈神经网络处理,解码器中的前馈神经网络与第六步类似,也是增强模型的表达能
24、力。第九步:解码器的最后处理环节经过 linear 层和 softmax 层,这两个子层将解码器输出内容转换为词汇表的概率分布,概率分布反映下一个 Token 生成概率。通常模型选择概率最高的 Token 作为输出,生成输出序列。因此解码器本质上是在做“单词接龙”的游戏,猜下一个输出单词。14大模型合规白皮书图 1近年来大语言模型进化树11从图 1 可以看出,经过演变,大模型大致分为三种:其一是舍弃 Decoder、仅使用 Encoder 作为编码器的预训练模型,以 Bert 为代表,但 Bert 未突破ScalingLaws,Encoder-Only 分 支 在 2021 年 后 逐 渐 没
25、 落。其 二 是 同 时 使 用Encoder、Decoder 的预训练模型,代表模型有清华大学的 chatGLM。其三是舍弃Encoder、仅使用 Decoder 作为编码器的预训练模型,以 GPT 为代表,其通过预测下一个单词,基于给定的文本序列进行训练。GPT 最初主要被视为文本生成工具,而 GPT-3 的推出成为该分支发展的历史性时刻。自 GPT-3 问世后,不断涌现出诸多如ChatGPT、PaLM、GPT-4等优秀的大模型,Decoder-Only分支现发展势头强劲。1.大模型带来的效率与准确度革命GPT 及其他大模型为当今的生产效率带来了前所未有的革命性提升。传统11SeeJinf
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2023 模型 合规 白皮书
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【Stan****Shan】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【Stan****Shan】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。