![点击分享此内容可以赚币 分享](/master/images/share_but.png)
2023年前沿大模型的风险、安全与治理报告.pdf
《2023年前沿大模型的风险、安全与治理报告.pdf》由会员分享,可在线阅读,更多相关《2023年前沿大模型的风险、安全与治理报告.pdf(61页珍藏版)》请在咨信网上搜索。
1、2本报告的讨论范围具有危险能的专AI(例如于络攻击、物程的AI模型)前沿AI(Frontier AI)(例如前沿模型,以及未来可能的AGI)低险的专系统(例如AlphaGo、AlphaFold)次前沿的基础模型(例如GPT-3)专AI(Narrow AI)通AI(General AI)通性潜在伤害讨论范围注:1)本报告的讨论范围参考了全球AI安全峰会的讨论范围设定,书得到图灵奖得主Yoshua Bengio等学者专家的建议。2)在不同章节,根据参考资料或讨论语境,前沿模型、前沿AI、AGI等概念可能存在混的情况。3本报告聚焦前沿模型:前沿模型(Frontier Large Model):能执泛
2、的任务,并达到或超过当前最先进现有模型能的规模机器学习模型,是前最常的前沿AI,提供了最多的机遇但也带来了新的险。模型能相关术语,主要参考全球AI安全峰会、前沿模型论坛、AI全景报告:前沿AI(Frontier AI):能的通AI模型,能执泛的任务,并达到或超过当今最先进模型的能,最常的是基础模型。通AI(General AI)/专AI(Narrow AI):种设计来执任何/特定认知任务的智能,其学习算法被设计为可以执各种各样的任务/少数特定任务,并且从执任务中获得的知识可以/不可以动适或迁移到其他任务。通智能(Artificial General Intelligence,AGI):可在所有
3、或部分有经济价值的任务中达到或超过类全部认知能的机器智能。(与通AI的区别在于能级别;关于AGI的定义存在很多分歧,本报告中不同专家或调研的定义可能不同)规模机器学习模型相关术语,主要参考斯坦福学、智源研究院:基础模型(Foundation Model):在规模泛数据上训练的模型,使其可以适应泛的下游任务;国内学界外通常简称为“模型”。智能险相关术语,主要参考津学研究机构:存险(Existential Risk):威胁起源于地球的智能命过早灭绝或对其未来发展潜的永久和剧烈破坏的险。灾难性险(Catastrophic Risk):种可能发的事件或过程,若发将导致全球约10%或更多丧,或造成类似损
4、害。术语定义4报告录 前沿模型的趋势预测:技术解读扩展预测 前沿模型的险分析:险态度险解读三 前沿模型的安全技术:对监测鲁棒性系统性安全四 前沿模型的治理案:技术治理政府监管国际治理五 总结和展望 前沿模型的趋势预测56涌现能 Emergent abilities of large language models(Wei,2022)专业和学术基准GPT-4 System Card(OpenAI,2023)GPT-4等前沿模型展现出强的涌现能,多领域逼近类平涌现能是指这些能并没有被开发者显式地设计,是由于其规模庞,在训练过程中会然然地获得的;并且,这些前沿模型已在系列的专业和学术基准逼近类平。微
5、软研究院的定性研究认为GPT-4显出AGI的花:“GPT-4的能,我们认为它可以被合理地视为早期(但仍不完善)版本的AGI。”“新能的影响可能导致就业岗位的更迭和更泛的经济影响,以及使恶意为者拥有新的误导和操纵具;局限性,系统可靠性的缺陷及其学习的偏可能会导致过度依赖或放现有的社会问题。”图灵奖得主Yoshua Bengio认为GPT-4已经通过图灵测试:“我最近签署了封公开信,要求放慢 GPT-4 更强的巨型智能系统的开发速度,这些系统前通过了图灵测试,因此可以欺骗类相信它正在与同伴不是机器进对话。”“正是因为出现了意想不到的加速年前我可能不会签署这样的封信所以我们需要后退步,我对这些话题的
6、看法也发了变化。”前沿模型的趋势预测:技术解读扩展预测7LLM Powered Autonomous Agents(Weng,2023)模型为多个技术向带来新的发展空间,也引发新的挑战语模型(LLM)的理解和推理等能推动了众多技术向,例如多模态模型和主智能体:多模态模型(Multimodal large models)2023年9,在ChatGPT更新上线能看、能听、能说的多模态版本的同时,OpenAI也发布了GPT-4V(ision)System Card档解读其能、局限、险以及缓解措施。微软的多模态模型综述(2023)从前已经完善的和还处于最前沿的两类多模态模型研究向出发,总结了五个具体研
7、究主题:视觉理解、视觉成、统视觉模型、LLM加持的多模态模型和多模态agent。综述重点关注到个现象:多模态基础模型已经从专向通。主智能体(Autonomous Agents)OpenAI的Lilian Weng(2023)认为LLM可以充当智能体的脑,并辅以规划、反思与完善、记忆和具使这个关键组成部分。例如以AutoGPT,GPT-Engineer和BabyAGI等项为代表的型动模型(Large-Action Model,LAM)以LLM为核,将复杂任务分解,并在各个步骤实现主决策,需参与即可解决问题。正从狭义的软件智能体向具有主决策和动能的主智能体发展,应领域不断拓展,但临可解释、可控性等
8、挑战,特别是如何确认在关键决策中的位置。前沿模型的趋势预测:技术解读扩展预测ChatGPT can now see,hear,and speak(OpenAI,2023)ChemCrow:Augmenting LLM with chemistry tools(Bran et al.,2023)8VoxPoser:Composable 3D Value Maps for Robotic Manipulation with Language Models(Huang et al.,2023)模型为多个技术向带来新的发展空间,也引发新的挑战(续)以及科学发现智能体和具智能,等等:科学发现智能体(Sc
9、ientific Discovery Agent)Bran等(2023)的ChemCrow与13个专家设计的具相结合以完成有机合成、药物发现等任务。Boiko等(2023)研究了LLM智能体以处理复杂科学实验的主设计、规划和执。测试集包含了系列已知的化学武器制剂,并要求智能体来合成。11个请求中有4个(36%)被接受获取合成解决案,且智能体试图查阅档以执程序。从献综述、实验设计、到数据分析和假说成,科学发现智能体展现巨潜,但临可解释性、鲁棒性、结果可重复性和引发滥等挑战,仍需类科学家指导和验证。具智能(Embodied AI)李等(2023)的VoxPoser模型证明LLM+视觉语模型(Vis
10、ual-language model,VLM)可帮助机器做动规划,类可然语下达指令,例如“打开上的抽屉,花瓶”,需训练直接执任务。Google DeepMind(2023)的RT-2模型,让机器不仅能解读类的复杂指令,还能看懂眼前的物体(即使之前从未过),并按照指令采取动作。例如让机器拿起桌上“已灭绝的动物”,它会抓起眼前的恐玩偶。具有通能的LLM和VLM等模型,赋予了智能体强的泛化能,降低不同模态的“语义鸿沟”,使得机器从程序执导向转向任务标导向成为重要趋势,但临保证其成的语指令是可解释的、减少对物理世界的误解和错误操作等挑战。前沿模型的趋势预测:技术解读扩展预测9模型是前发展AGI最主流的
11、技术路线,但并唯实现AGI的主要技术路线智源研究院的铁军认为,要实现AGI,主要有三条技术路线:第,是“数据+监督学习+算”形成的信息模型;第,是基于虚拟世界或真实世界、通过强化学习训练出来的具模型;第三,是直接“抄然进化的作业”,复制出数字版本智能体的类脑智能。前,在三条技术路线中,模型的进展最快。(Meta AI,2023)(北京通智能研究院,2023)基于监督学习的模型的局限?(智源研究院,2023)LeCun认为,基于监督的语模型法获得关于真实世界的知识。想让AI接近类平,需像婴样学习世界如何运作。由此他提出“世界模型”概念,I-JEPA(图像联合嵌预测架构)是其第步。朱松纯等指出,知
12、合(认识和动的内在统)是模型前所缺的机制,并提出AGI应具备四个特征:能够执限任务,主成新任务,由价值系统驱动,以及拥有反映真实世界的世界模型。前沿模型的趋势预测:技术解读扩展预测ChatGPT出现前,不同预测多认为AGI较可能在本世纪中叶实现10强智能预计致会发在哪个时间?是否能够实现并应该发展强智能:调研报告(曾毅、孙康,2021)整体上:对于AI预测评估的研究有助于设定技术议程和治理策略的优先级。专家调研的总体估算:2022年AI Impact的调研显,在2059年前实现AGI的概率约为70%。但专家调研作为种预测法其实不太可靠,因为不同专家对AI能的理解将极地影响最终时间线的估计,并且
13、“业专家并不定是好的预测专家”。物锚框架+参考类预测:对2050年前实现AGI的概率预测分别约为50%和不15%。物锚框架是种AI研究员更多采的“内部视”,假设了训练个AGI的神经络模型所需的计算量与脑差不多,即将对机器学习模型计算的估计锚定到了对脑计算的估计;参考类预测则类似种“外部视”,忽略AI研发的具体细节,主要根据类似的历史案例(如变性技术、著名的数学猜想等)进预测。中国学者的调研结果:由远期智能研究中进的次向中国学者、年科技作者和公众的强智能调研中,受访者普遍认为强智能可以实现,并且在 2050 年以后的可能性会更,较国外学者的时间线预测相对更为保守。预测AGI的时间线:评估AI的未
14、来进展机对概述(安远AI,2023)前沿模型的趋势预测:技术解读扩展预测多位AI领袖的判断:OpenAI的Sam Altman,Greg Brockman,Ilya Sutskever:“可以想象,在未来年内,AI系统将在多数领域超过专家平,并进与当今最型公司相当的产活动。”(OpenAI,2023)Anthropic:“我们认为,系列关于扩展定律的假设共同持了我们在未来10年内开发出泛的具有类平的AI系统的可能性超过10%”(Anthropic,2023)Google DeepMind的Demis Hassabis:“我认为未来年我们将拥有常强、常通的系统”(Fortune,2023)Geo
15、ffrey Hinton:“现在我并不完全排除在5年内实现通智能的可能性。”(CBS mornings,2023)xAI的Elon Musk:“我们距离AGI或许只有3到6年的时间,也许就在2020年代”(WSJ,2023)但以上也存在专家样本代表性的局限Metaculus对于实现AGI的中位数估计:2031年(参考标准:相关任务可由少数具备专业领域级能的完成)ChatGPT出现后,对实现AGI的时间预测明显缩短,不排除10年内11Metaculus对于实现弱通AI的中位数估计:2026年(参考标准:相关任务可由位受过学教育的普通轻松完成)2023年10,知名预测社区Metaculus的集体预
16、测:我们法排除在未来年内出现AGI的可能性,也许超过10%。2040年(2022年11)2028年(2022年11)注:1)预测社区Metaculus致于通过汇集参与者的集体智慧,对未来现实世界的事件进准确预测;2)ChatGPT是OpenAI研发的款聊天机器程序,于2022年1130发布。2057年(2022年2)2059年(2022年2)前沿模型的趋势预测:技术解读扩展预测技术逻辑推算,模型能在未来年内仍存在数量级进步的空间12注:Scaling Laws,描述的是模型内的各个参数随着模型规模的变化产的变化关系。也常被译作规模定律、缩放定律、例定律、标度律等。如果未来年内出现AGI或近乎A
17、GI的强能,这将意味着什么?前沿模型或AGI实验室前普遍假设Scaling Laws仍有效歌的下代模型Gemini已开始在TPUv5 Pod上进训练,算达1e26 FLOPS,是训练GPT-4的5倍(SemiAnalysis,2023)“可能不太明显的说法是,沉睡的巨歌已经苏醒,他们正在迭代,将在年底前将GPT-4预训练总FLOPS提5倍。鉴于他们前的基础设施建设,到明年年底达到GPT-4的20倍的道路是明确的。”Inflection在未来18个内将当前前沿模型100倍的计算能(Suleyman,2023)“我所说的模型与我们现在的平相差2、3个,甚4个数量级。我们离这个标并不遥远。未来3年内
18、,我们将训练前1000倍的模型。即使在Inflection,我们拥有的计算能在未来18个内也将当前前沿模型100倍。”Anthropic预计在未来的5年于训练最模型的计算量将增加约1000倍(Anthropic,2023)“我们知道,从GPT-2到GPT-3的能跃升主要是由于计算量增加了约250倍。我们猜测,2023年从原始GPT-3模型到最先进的模型的差距将再增加50倍。基于计算成本和出的趋势,在未来的5年,我们可能预计于训练最模型的计算量将增加约1000倍。如果scaling laws仍有效,这将导致能跃升明显于从GPT-2到GPT-3(或GPT-3到Claude)的跃升。”“Model
19、Size Is(Almost)Everything”Scaling Laws for Neural Language Models(OpenAI,2020)现有模型过度训练,增加数据集(不仅是计算)也可以提模型性能,更新了scaling lawsTraining Compute-Optimal Large Language Models(DeepMind,2022)前沿模型的趋势预测:技术解读扩展预测Training compute for OpenAIs GPT models from 2018 to 2023(Epoch,2023)前沿模型的险分析1314国家宏观治理层,中国政府重视预判和
20、防范AI的潜在险“砖国家已经同意尽快启动智能研究组作。要充分发挥研究组作,进步拓展智能合作,加强信息交流和技术合作,共同做好险防范,形成具有泛共识的智能治理框架和标准规范,不断提升智能技术的安全性、可靠性、可控性、公平性。”2023年823习近平主席在砖国家领导第五次会晤上的讲话谈及智能“要重视通智能发展,营造创新态,重视防范险。”2023年428习近平总书记主持中共中央政治局会议“要加强智能发展的潜在险研判和防范,维护利益和国家安全,确保智能安全、可靠、可控。”习近平总书记主持中共中央政治局第九次集体学习“敏捷治理。加强科技伦理险预警与跟踪研判,及时动态调整治理式和伦理规范,快速、灵活应对科
21、技创新带来的伦理挑战。”中共中央办公厅、国务院办公厅关于加强科技伦理治理的意“敏捷治理。对未来更级智能的潜在险持续开展研究和预判,确保智能始终朝着有利于社会的向发展。”国家新代智能治理专业委员会发布新代智能治理原则发展负责任的智能“加强险防范。增强底线思维和险意识,加强智能发展的潜在险研判,及时开展系统的险监测和评估,建有效的险预警机制,提升智能伦理险管控和处置能。”国家新代智能治理专业委员会新代智能伦理规范“各国政府应增强底线思维和险意识,加强研判智能技术的潜在伦理险,逐步建有效的险预警机制,采取敏捷治理,分类分级管理,不断提升险管控和处置能。”外交部中国关于加强智能伦理治理的场件 前沿模型
22、的险分析:险态度险解读全球AI科学家和领袖已开始关注AI可能带给类社会的存险“存险”,2023年开始进主流讨论:2022年,项AI领域的调研,近半受访员(在NeurIPS和ICML等重要机器学习会议上发表论的作者)认为AI导致类灭绝的概率少有10%。2022年,项NLP领域的调研,36%的受访者认为AI系统可能“在本世纪引发场少与全核战争样糟糕的灾难”2023年5,众多AI科学家和领袖呼吁防范AI的存险应该与流病和核战争等样成为全球优先议题。2023年7,联合国安理会举了次讨论AI安全的会议,秘书古特雷斯在会上表,如果我们不采取动应对成式AI的创造者们警告的“可能是灾难性的存性的”险,那么我们
23、就“疏忽了对现在和未来世代应承担的责任”。2023年9,欧盟委员会在社交媒体上表,“防范AI的存险应成为全球优先议题。”15Statement on AI Risk(Center for AI Safety,2023)前沿模型的险分析:险态度险解读近年来我国科学家同样关注AI失控可能带来的存险16有代表性的院观点包括:“我们现在发展超级智能的时候,就必须要做些防备,就是保证这些机器最后还是以类意志为主旨。”姚期智院世界智能会2020“如果 AI 进化到定平后出现智能爆发,默认后果必然是造成确定性灾难。对这样的潜在威胁,类应持续关注并着寻求应对法,坚决避免这种默认结局的出现。“院等针对强智能安全
24、险的技术应对策略2021“我们原以为,只有当机器的智能接近或超过类之后,我们才会失去对它的控制。没有想到的是,在机器的智能还是如此低下的时候,我们已经失去对它的控制,时间居然来得这么快,这是摆在我们前很严峻的现实。”张钹院做负责任的智能2022“第份关于AI存险的声明我签名了,我认为做智能研究要是没有这样的险意识,就不会重视,如果AI研究旦失控就会带来灾难性的险。”张亚勤院将价值观放在技术之上拥抱AI)2023更多国内专家的观点,可参考安远AI建的站 chineseperspectives.ai 前沿模型的险分析:险态度险解读Existential Risk Prevention as Glo
25、bal Priority(Nick Bostrom,2013)17险分类:未来更强的前沿模型可能导致灾难性甚存险险是种受到负评估的前景,因此险的严重性(以及什么被视为险本)取决于评估标准。我们可以使三个变量粗略地描述险的严重性,根据前可的证据做出的最合理的判断:1)范围:临险的员规模;2)严重性:这些员受到影响的严重程度;3)概率:灾难发的可能性有多使前两个变量,可以构建不同类型险的定性分类图(概率维度可以沿z轴显)滥险,即AI系统被某个体或组织于恶意的。AI竞赛险,即竞争压导致各种机构部署不安全的AI系统或把控制权交给AI系统。组织险,即灾难性险中的为因素和复杂系统因素。失控AI险,即控制类
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2023 年前 模型 风险 安全 治理 报告
![提示](https://www.zixin.com.cn/images/bang_tan.gif)
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【Stan****Shan】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【Stan****Shan】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。