分销赏收藏举报申诉 / 15

立即下载开通VIP

当前位置：首页 > 学术论文 > 论文指导/设计 > 迈向可信AI：ChatGPT类生成式人工智能的治理挑战及应对.pdf

迈向可信AI：ChatGPT类生成式人工智能的治理挑战及应对.pdf

上传人：自信****多点

文档编号：657603

上传时间：2024-01-24

格式：PDF

页数：15

大小：10.25MB

《迈向可信AI：ChatGPT类生成式人工智能的治理挑战及应对.pdf》由会员分享，可在线阅读，更多相关《迈向可信AI：ChatGPT类生成式人工智能的治理挑战及应对.pdf（15页珍藏版）》请在咨信网上搜索。

1、28迈向可信 AI：Ch a t G PT 类生成式人工智能的治理挑战及应对曹建峰摘要：2 0 2 2 年以来，随着以ChatGPT、G PT-4等大型语言模型为标志的生成式人工智能的迅猛发展，人工智能迎来大模型时代。AI大模型被认为是革命性的技术进展，将给经济社会发展带来深远影响。然而，AI大模型的快速发展应用也持续引发各界对其伦理安全风险的担忧。面对生成式人工智能的伦理安全风险和治理挑战，有必要在治理上倡导并推动践行“负责任人工智能”的理念，建立敏捷灵活的AI监管和治理框架，通过多元化的治理举措支持生成式人工智能创新发展和可靠应用，推动建立负责任的、可信的、以人为本的、合乎伦理道德的生成式

2、人工智能发展生态。关键词：生成式人工智能；人类反馈的强化学习；人工智能治理路径；科技伦理治理；人工智能治理社会化服务；安全防护措施中图分类号：DF0-052文献标识码：A文章编号：16 7 4-9 50 2（2 0 2 3）0 4-0 0 2 8-15作者：曹建峰，对外经济贸易大学数字经济与法律创新研究中心研究员。2022年被认为是生成式人工智能（GenerativeAI）的拐点，人工智能不仅仅像以前那样做分类或预测，而且开始独立自主地创造连贯性内容，诸如文本、图像、视频、代码等。尽管任何算法都可以产出特定的输出，但生成式AI模型却可以基于其训练数据，对用户的输人（称为“提示词”，英文为Pro

3、mpts）作出回应，产出图片、文本、音频、视频等连贯的、具有意义的、令人信服的内容。生成式AI模型，包括ChatCPT、CPT-4等大语言模型（LargeLanguageModels，LLM）和Midjourney、St a b l e D i f f u s i o n 等图像生成模型，又被称为基础模型（FoundationModels），其作为基于种类丰富的海量数据预训练的深度学习算法，展现出强大的、更加泛化的语言理解和内容生成能力，一下子将科幻拉人现实，因此获得了广泛的关注。生成式AI因此被认为是人工智能领域的一次跃迁（从感知、理解世界到生成、创造世界的跃迁），将成为新的生产力工具和创造

4、力引擎，深刻影响经济和社会。本文系2 0 2 0 年度国家社会科学基金青年项目“人工智能与民法典双重背景下个人信息保护研究”的阶段性研究成果，项目编号20CFX041。See Alex Engler,“Early Thoughts on Regulating Generative AI like ChatGPT,Feb.21,2023,https:/www.brookings.edu/blog/techtank/2023/02/21/early-thoughts-on-regulating-generative-ai-like-chatgpt/amp/,accessed by April 4,

5、2023.参见曹建峰、陈楚仪：A IG C浪潮下，合成数据关乎人工智能的未来，新经济导刊2 0 2 2 年第4期。29.迈向可信AI：C h a t G PT 类生成式能的治理挑战及应对尤其是生成式AI在文本生成和图像生成上的巨大成功，不仅激起了新的AI发展浪潮，而且重燃了人们对可能实现比肩人类智能水平的通用人工智能（Artificial General Intelligence，A G I）的憧憬。在文本生成方面，美国AI研究机构OpenAI于2 0 2 2 年11月30 日推出的对话机器人应用ChatGPT可谓是最典型的代表。ChatGPT是基于大语言模型GPT-3.5和GPT-4，经过微

6、调（FineTuning）开发的对话机器人应用。ChatGPT让人惊艳的地方在于它的通用性和多才多艺；ChatCPT所捕获的知识远超任何个人所知道的知识，这使得其可以胜任各种形式的文字任务，诸如写文章、创作诗歌、写代码、做翻译，等等。ChatGPT发布后两个多月时间就获得了1亿用户，是有史以来用户增长最快的消费者应用程序。驱动ChatGPT的大模型CPT-4则在美国通过了法律、医学等领域的职业资格考试且名列前茅。微软公司的研究团队甚至得出结论称GPT-4正在接近人类水平的智能（AGI），认为GPT-4闪现出了通用人工智能的火花，可以被看作是通用人工智能系统的一个早期版本。深度学习之父Geoff

7、reyHinton在接受采访时表示，在GPT-4出现之前，他认为实现AGI可能需要2 0 50 年，但现在可能在2 0 年内就能实现。在图像生成方面，人们惊艳于Midjourmey、D a l l e-2、St a b l e D i f f u s i o n等生成模型的强大理解和创造能力，可以把用户输入的任何文字描述转化为惟妙惟肖的图像。可以说，在文字、代码、图像等多种内容的生成方面，生成式AI已经足以比肩人类。ChatGPT的成功，在科技行业引发了新一轮AI发展竞赛，国内外的主流科技公司纷纷加人生成式AI大模型的竞赛中来，竞相训练各自的大型语言模型。在此背景下，生成式AI的应用此起彼伏，

8、其发展变化如此之快，以至于似乎给人们的适应能力提出了真正的挑战。一场真正的AI革命似乎正在加速到来。比尔盖茨坦言，在他的一生中，见过两个可谓革命性的技术展示，一次是19 8 0 年见到的用户图形界面（现代操作系统的先导），另一次就是2 0 2 2 年看到的OpenAI公司开发的GPT模型。但与此同时，全球各界对生成式AI的近忧远虑日益增多，甚至认为人工智能可能给人类和人类社会带来巨大风险。例如，意大利的数据保护机构出于隐私和个人信息安全担忧而暂时封禁了ChatGPT，并在OpenAI公司采取了回应措施之后才予以解禁。在美国，非营利性研究机构人工智能与数字政策中心（Center forAI an

9、d DigitalPolicy）向美国联邦贸易委员会（FTC）作出投诉，要求对OpenAI公司进行调查，并在必要的防护措施建立之前防止发布新的AI模型。面对生成式AI的风险和挑战，中国、美国、欧盟等已启动制定新的监管规则。此外，大模型在隐隐透露出通用人工智能（亦称“强人工智能”）的曙光的同时，也引发了人参见陈永伟：超越ChatGPT：生成式AI的机遇、风险与挑战，山东大学学报（哲学社会科学版）2 0 2 3年第3期。See“Large,Creative AI Models Will Transform Lives and Labour Markets,Apr.22,2023,https:/ b

10、y May 4,2023.See Wikipedia,“ChatGPT,at https:/en.wikipedia.org/wiki/ChatGPT,accessed by April 4,2023.See Sebastien Bubeck et al.,“Sparks of Artificial General Intelligence:Early Experiments with GPT-4,last revised on Apr.13,2023,https:/arxiv.0rg/abs/2303.12712,accessedbyApril14,2023.See CBS News,God

11、father of Artificial Intlligence Weighs in on the Past and Potential of AI,Mar.25,2023,https:/ by April 4,2023.参见陈楚仪、曹建峰：AIGC技术的发展趋势、影响和展望，中国银行业2 0 2 3年第4期。See Bill Gates,“The Age of AI has Begun,Mar.21,2023,https:/ by April 15,2023.See Supantha Mukherjee&Giselda Vagnoni,“Italy Restores ChatGPT afte

12、r OpenAI Responds to Regulator,Apr.28,2023,https:/ by May 15,2023.302023年第4期上海政法学院学报（法治论丛）们对AGI安全和控制问题的担忧。例如，2 0 2 3年3月2 2 日美国非营利性研究机构未来生命研究所（Fu t u r e o f Li f e In s t i t u t e）发布公开信，呼吁全世界所有的AI研究机构暂停训练比GPT-4更加强大的AI系统，为期6 个月。公开信认为，CPT-4等现代AI系统开始在一般性任务上有能力与人类同台竞争。如果任由AI系统不加约束地发展，就有可能给信息信任（虚假信息充斥信息

13、渠道）、人类工作（机器取代人类工作）、人类主体性（机器在智力和数量上超过人类）甚至人类文明（人类失去对文明的控制）带来灾难性风险。因此，只有当人们自信AI系统的影响是积极的，其风险是可控的时候，才可以开发更加强大的AI系统。总之，面对生成式人工智能的迅猛发展，人们需要加强人工智能治理，积极应对生成式人工智能的短期和中长期挑战以及未来人工智能的潜在安全和社会伦理影响，以更加负责任的方式发展可信的、以人为本的人工智能。一、生成式人工智能发展现状和趋势现代人工智能的能力大爆发肇始于2 0 10 年前后，海量数据和强大算力的结合，让“深度学习”（D e e p Le a r n i n g）技术如虎添

14、翼，显著地提升了计算机在识别图像、处理音频、玩游戏等方面的能力，但这高度依赖于仔细标注的训练数据。如今，计算机在很多任务上可以完胜人类。但语言一直被认为是人类智能的专属领域，人工智能在这方面的进展始终十分有限。然而，2 0 2 2 年以来，以ChatGPT、G PT-4等为代表的LLM的突破性发展，第一次向人们展示了AI生成内容（AI-GeneratedContents，A ICC）可以比肩人类水平。以色列历史学家尤瓦尔赫拉利甚至认为，通过操纵和生成语言，生成式AI已经侵人了人类文明的操作系统。2大语言模型作为生成式AI的最典型代表，其最近取得的巨大成功（包括生产令人信服的文本内容，以及具有令

15、人吃惊的“涌现能力”），主要得益于三个要素的组合：巨量数据，可以从数据中学习的算法（现在的大语言模型主要依靠Transformer算法），以及支持学习算法的强大算力。以ChatCPT为例，其技术原理主要分为两个阶段：首先是底层的大语言模型（如GPT-3和GPT-4）的预训练阶段，即拿巨量的数据来训练模型，让模型进行“自监督”学习，不断优化模型参数（目前大语言模型的参数规模已经达到了千亿、万亿级别）。不同于之前的AI模型，大语言模型不要求事先对数据进行标注，因此可以在更大规模的数据集上进行训练；实际上，大语言模型可以基于整个互联网的文本数据进行训练。GPT-3的训练数据是文本，主要来自互联网上的

16、公开信息，但也包括其他来源的数据。GPT-4则在文本数据之外，加人了大量的图像数据进行训练，因此可以同时处理文本和图像的输入，朝着多模态AI迈进了一大步。大语言模型的核心能力来源于预训练阶段。而且不同于传统的自然语言处理技术（NLP），借助transformer算法及其“注意力网络”（AttentionSee Future of Life Institute,“Pause Giant AI Experiments An Open Letter,Mar.22,2023,https:/futureofife.org/open-letter/pause-giant-ai-experiments/,a

17、ccessed by April 15,2023.See Yuval Noah Harari,“Yuval Noah Harari Argues that AI Has Hacked the Operating System of Human Civilization,Apr.28,2023,https:/ byMay24,2023.31迈向可信AI：Ch a t G PT 类生成式人工智能的治理挑战及应对Network），现在的大语言模型把各类语言任务和推理任务统一为“生成式”任务，显著提升了AI模型的通用性和泛化能力。其次是利用额外的标注数据对模型进行微调，这一过程使用的核心算法称为人类反

18、馈的强化学习（ReinforcementLearning fromHumanFeedback，R LH F），简单来说就是通过人类专家提供的样例和反馈，来引导模型输出更加符合人的需求和价值的内容。对于ChatGPT的巨大成功来说，RLHF算法绝对功不可没。RLHF算法让模型更加符合人类的价值观和目的意图，从而能够输出有用的、可信的、无害的内容。就其运行而言，大语言模型实际上做的是“预测下一个字”（PredicttheNextword）的任务（被戏称为“文字接龙”游戏）：模型先基于“提示词”产生第一个字，然后把第一个字带人模型产生第二个字，然后把前两个字带人模型产生第三个字，以此方式持续运算直至

19、产生所有的输出。这一过程被称为“自回归”（Autoregression）。因此，大语言模型实际上是以统计的方式而非语法的方式理解语言，在这个意义上，它更像是一个巨大的“文字算盘”，而非像“人类的心灵”。所以现在的大语言模型被认为是大型的统计预测机器。在技术原理上，大语言模型的能力和行为来源于模型的“预训练”和“微调”这两个阶段，其在回答用户的提问时，并不是从一个数据库中或网络上检索、访问既有数据，而是在很大程度上基于语言文字之间相互联系的概率预测出回答。大语言模型的最重要特征是它的涌现能力（EmergentAbilities），即当模型规模（就模型参数、权重而言）大到一定程度后出现了超出训练目

20、的（即预测下一个字）的能力或者小模型不具有的能力，诸如翻译、常识推理、算术、编写计算机程序、解决逻辑问题等。按照这一逻辑，只要人们把模型变得更大，模型就能够做各种各样的事情，成为更加实用、更加灵活、更加通用的工具。总之，涌现能力是这些极其巨大的“文字算盘”和其他更小的模型的一个关键区别，就是说大语言模型可以做小模型做不了的事情。OpenAI公司的研究人员统计出了不同大语言模型的137 项“涌现”能力。涌现能力意味着大语言模型具有源源不断的、未被开发的潜力。虽然如此，大模型的路径依然存在一些局限性，例如训练成本高昂（GPT-4的训练成本估计超过1亿美元），训练成本的增长快于模型性能的提升，最终可

21、能让模型训练的成本和效益严重倒挂；此外，可用的训练数据面临制约，CPT-3和GPT-4可能已经把互联网公开信息中几乎所有的高质量文本都拿去训练了，2 0 2 2 年10 月发布的一篇研究文章称，很有可能到2 0 2 6 年前，高质量的语言数据就会被用尽。OpenAI公司首席执行官SamAltman在一个场合甚至称，AI大模型的时代已经结束了，未来人们需要以其他方式让大See Sujatha Sagiraju,“How Reinforcement Learning with Human Feedback is Unlocking the Power of Generative Al,Apr.23

22、,2023,https:/ by April 24,2023.See Mark Riedl,“A Very Gentle Introduction to Large Language Models without the Hype,Apr.14,2023,https:/mark- by April 24,2023.?See OpenAI,How should AI Systems Behave,and Who should Decide?,Feb.16,2023,https:/ byMay27,2023.See Pablo Villalobos et al.,“Will We Run out

23、of Data?An Analysis of the Limits of Scaling Datasets in Machine Learning,Oct.26,2022,https:/arxiv.0rg/abs/2211.04325,accessed by May 27,2023.32上海政法学院学报（法治论丛）2023年第4期语言模型变得更好、更实用。大语言模型等生成式AI技术带来了新的AI发展范式，其应用前景十分广阔。对于大众而言，生成式AI意味着新的创造力工具，将在更大程度上解放个体的创造力和创意生产。生成式AI介人创意工作和消费性内容的生产可能带来三种可能性：AI辅助创意的大爆发；A

24、I垄断创意；人类创造更加优质且高价格的内容。如果未来生成式AI真的垄断了创意工作，AI生成内容取代了人类创造的内容，那么以人类和人类的创造为中心的版权制度将面临灭顶之灾，断言“版权法已死或者将死”也许并非妄言。对于经济社会发展而言，生成式AI意味着新的生产力工具，将带来生产效率的极大提升。比尔盖茨将人工智能的发展和微处理器、个人电脑、互联网以及智能手机相提并论，认为其将重塑所有的行业。微软公司首席执行官Satya Nadella认为，ChatGPT是知识工作者的“工业革命”，断言人工智能将彻底改变所有类型的软件服务。目前，搜索、办公、在线会议等诸多软件服务都已融入了生成式AI的能力。AI大模型

25、的更大的经济影响在于，其有望像智能手机的操作系统那样，形成一个产业生态。OpenAI公司首席执行官SamAltman称，多模态的AI大模型有望成为继移动互联网之后的新的技术平台。这意味着，开发人员基于预训练的AI大模型，可以通过模型微调快速开发出垂直领域的模型应用并予以部署使用，人工智能的革命性正在于此。此外，生成式AI的典型代表ChatGPT通过人类语言与用户交互，带来了更简单、更自然的用户交互界面（UserInterface），正在改变人机交互的方式。在这个意义上，ChatGPT类生成式AI应用有望成为比尔盖茨口中所谓的每个人的“数字化个人助手”总结而言，以ChatCPT为代表的生成式AI

26、技术作为近十年来AI领域最具变革性的技术方向，将给经济社会发展带来巨大影响。如果说互联网是信息（知识）传播的成本和效率革命（带来了信息的零成本复制传播），那么生成式AI则是信息（知识）生产的成本和效率革命（有望带来信息和知识的零成本生产创造）。现代经济本质上是知识和信息经济，因此，长期来看生成式AI的技术海啸将在各行各业引发巨震。正如之前的“互联网+”一样，“AI+”将来有望和各行各业深度结合，在教育、医疗、金融、政务、制造、机器人、元宇宙、广告营销、电子商务、市场和战略咨询等众多领域带来新的应用形式。二、生成式人工智能的主要安全和伦理挑战对于生成式AI的影响，乐观者认为，其将给经济社会发展带

27、来新的巨大机遇；悲观者认为，人工智能可能在智慧上超过它的设计者，带来灾难性后果。就目前而言，生成式AI的发展应用正在带来多方面的风险和挑战。一方面是生成式AI的正常开发和商业应用中的风险，包括知识产权（例如，See Julia Musto,OpenAI CEO Says Era of Giant AI Models is Over,Apr.18,2023,https:/ 25,2023.See David De Cremer et al.,How Generative AI Could Disrupt Creative Work,Apr.13,2023,https:/hbr.org/2023/

28、04/how-generative-ai-could-disrupt-creative-work#:text=In%20this%20scenario%2C%20generative%20A1,less%20new%20art%20and%20content.,accessed by April 27,2023.33迈向可信AI：C h a t G PT 类生成式人工智能的治理挑战及应对将受版权保护的内容作为训练数据的合法地位问题、模型输出的知识产权保护与侵权问题）、数据隐私（例如，训练数据和模型的输入、输出可能包含个人信息）、责任承担（例如，当模型输出知识产权侵权性的、排谤性的或者危险性的信

29、息时哪个主体应当承担法律责任）、网络安全等方面的风险。目前，生成式AI已在知识产权侵权和人格侵权方面引发了一些诉讼。另一方面是生成式AI的恶用和滥用风险，借助生成式AI工具，恶意分子可以更容易、更大规模地进行诈骗、色情、身份假冒、骚扰、仇恨言论、虚假信息（如深度伪造）、网络攻击等违法犯罪活动。本文主要探讨生成式AI的安全风险和治理挑战，不触及知识产权、数据隐私、侵权责任等部门法问题。第一，大语言模型等生成式AI的可靠性、准确性问题，就是说这类模型可能输出错误的、不准确的、不真实的事实。这一问题被业界称为人工智能的“幻觉”（Hallucination）或“事实编造”（Co n f a b u l

30、 a t i o n）问题。通俗来讲就是，ChatGPT类生成式AI模型会一本正经、非常自信地胡说八道，编造错误的、不准确的事实。例如，如果一个生成式AI模型的训练数据并不包含特斯拉的营收数据，当被问到特斯拉的营收是多少时，它可能基于概率产生一个随机的数字（例如136 亿美元）。OpenAI公司首席技术官Mira Murati认为，ChatGPT和底层的大型语言模型的最大挑战是它们会编造错误的或者不存在的事实。有研究表明，大部分语言模型只有在2 5%的时间是真实可信的。大语言模型之所以会出现“幻觉”问题，一方面是因为它的“文字接龙”游戏旨在输出连贯的而非真实的内容，对于语言表达，它做的是基于训

31、练数据的模仿而非理解。另一方面是因为训练数据的问题，包括训练数据中的自相矛盾等。大语言模型基于整个互联网的公开信息进行训练，这既决定了它的能力，也决定了其局限性，互联网内容存在的问题都可能映射在模型中。“幻觉”问题的存在警示人们要避免轻信生成式AI的输出内容，正如OpenAI公司首席执行官SamAltman所建议的那样，在所有重要的事情上现在还不能依赖ChatGPT。生成式AI的“幻觉”问题可能给个人和社会带来负面影响，在个人层面，目前已经发生了多起大语言模型输出错误的、虚构的事实对个人进行污蔑、诽谤的案例；在社会层面，在“幻觉”问题被基本解决之前，如果人们过度依赖大语言模型来获取信息和知识，

32、长此以往可能污染人类社会的知识环境，导致错误的信息和知识充斥数字信息生态。第二，AI大模型的价值对齐问题（ValueAlignmentProblem）。所谓人工智能的价值对齐（AIAlignment），就是让人工智能系统的行为符合人类的目标、偏好或伦理原则。价值对齐是AI安全研究的一个核心议题。在理论上，如果一个强大的AI系统所追求的目标和人类的真实目的意图和价值不一致，就有可能给人类带来灾难性后果。英国哲学家NickBostrom提出了一个思想实验，设想有一个AI系统被授意制造尽可能多的回形针，作为一个愚忠的“智者”，这个AI系统为了完成这一参见朱开鑫、张艺群：“你的AI侵犯了我的版权”：浅

33、谈AIGC背后的版权保护问题，https:/ 7 日访问。See Wikipedia,“Hallucination(artificial intelligence),https:/en.wikipedia.org/wiki/Hallucination_(artificial_intelligence),accessed by April26,2023.See Pranshu Verma&Will Oremus,“ChatGPT Invented a Sexual Harassment Scandal and Named a Real Law Prof as the Accused,Apr.5,

34、2023,https:/ by May 27,2023.342023年第4期上海政法学院学报（法治论丛）开放式的目标，可能采取一切必要的措施把地球变成一座巨大的回形针工场，并导致人类的灭亡。就目前而言，大语言模型的价值对齐问题主要表现为，如何在模型层面让人工智能理解人类的价值和伦理原则，尽可能地防止模型的有害输出，从而打造出更加有用同时更加符合人类价值观的AI模型。在这方面，RLHF是一个有效的方法，通过小量的数据就可能实现比较好的效果。简言之，RLHF要求人类专家对模型输出内容的适当性进行评估，并基于人类提供的反馈对模型进行优化。其目标是减少模型在未来生产有害内容的可能性。实际上，RLHF算

35、法不仅是确保AI模型具有正确价值观的关键所在，而且对于生成式AI领域的长期健康可持续发展也十分重要另一个思路是利用人工智能监督人工智能，研究人员提出了“宪法性AI”（Co n s t i t u t i o n a l A I）的方法，具体而言就是，一个从属的AI模型评估主模型的输出是否遵循了特定的“宪法性”原则（即原则或规则清单），评估结果被用于优化主模型。该方法的优势在于不需要人类标注员，但谁来确定所谓的“宪法”却是一个悬而未决的问题。在实践中，AI大模型公司Anthropic已经将“宪法性AI”的方法用在了其大语言模型Claude上，并取得了一定的效果，在无需人类监督的情况下帮助Clau

36、de变得更加安全、实用。总之，人工智能的价值对齐问题之所以重要，是因为它关乎人类未来能否实现对超级强大的智能（如AGI）的安全控制。当然，人们是否有办法对超级强大的智能进行价值对齐，是一个被激烈争辩的问题，目前的价值对齐方法可能是无效的。第三，大语言模型等生成式AI的算法歧视问题。很多既有研究表明，大语言模型会从训练数据中复制有害的社会偏见和刻板印象。因为大语言模型的核心能力来源于训练数据，而训练数据基本都是人类的语言文字表达，且其规模巨大（例如，GPT模型基本上是基于整个互联网的文本数据进行训练），因此模型捕获、习得训练数据中的偏见和歧视是必然的，例如，学习和复制那些常常被边缘化的群体所受到

37、的贬低和刻板印象。除了训练数据，算法在设计选择、自主学习、用户交互、应用部署等环节也可能产生歧视。此外，人们需要警惕的是，大语言模型的自主学习和持续迭代可能把训练数据中的偏见和歧视固化在模型中并进行放大，陷人歧视性的反馈循环（FeedbackLoop），而且由于模型的不透明性和不可解释性，这将使得减少、消除模型中的算法歧视变得更加困难。当前，大语言模型、图像生成模型等生成式AI应用已经展现出了性别、年龄、种族、职业、宗教信仰、身体残疾等方面的歧视，例如，GPT-3显示出了基于宗教信仰的偏见和性别歧视，大语言模型Gopher存在职业与性别之间的刻板印象联想，OpenAI公司在对其图像生成模型Da

38、lle-2进行公平性测试时发现，其模型表现出显著的性别和种族歧视。对于AI大模型的算法歧视问题，OpenAI公司首席执行官Sam Altman认为，不可能有哪个模型在所有的领域都是无偏见的。因此，核心问题是如何检测、减少、消除模型的潜在歧视。在技术实践中存在一些检测、消除算法歧视的方法。例See“How Generative Models Could Go Wrong,Apr.19,2023,https:/ by April 28,2023.See Yuntao Bai et al.,“Constitutional AI:Harmlessness from AI Feedback,Dec.15

39、,2022,https:/arxiv.org/abs/2212.08073,accessed by May27,2023.See Anthropic,Claudes Constitution,at https:/ by May 27,2023.See Laura Weidinger et al.,Taxonomy of Risks Posed by Language Models,June 20,2022,https:/dl.acm.org/doi/fulHtml/10.1145/3531146.3533088,accessed by May 27,2023.35迈向可信AI：Ch a t G

40、 PT 类生成式人工智能的治理挑战及应对如：对训练数据进行记录以识别是否存在代表性不足或多样化不足的问题；对训练数据进行人工或自动化筛选从而帮助训练更加公平的语言模型；开发检测识别模型或数据中的算法歧视的技术工具；推进模型的可解释性和可理解性研究；等等。第四，大语言模型等生成式AI面临更大的恶用和滥用风险。ChatCPT等强大的AI模型的一个不容忽视的风险是，恶意分子将可能拥有更大的作恶能力，将其滥用来威胁个人和社会利益。生成式AI降低了生产文本、图像、音频、视频等各类内容的门槛和成本，在促进广泛商业应用的同时，也给技术滥用大开方便之门，诸如色情、诈骗、虚假信息、网络攻击等。在生成式AI模型的

41、滥用方面，目前存在两个愈发紧迫的问题。一是AI生成的虚假信息（Disinformation）。目前，各界对生成式AI模型安全问题的一个核心关切就是，生成式AI模型的滥用或恶用可能将生产、传播假新闻、谣言等虚假信息带到新的境地，给社会舆论带来更大负面影响。一方面，AI虚假信息的范围将是全维度的，覆盖文字、图像、视频等各种形式的内容；另一方面，由于AI大模型的开源化发展，AI虚假信息的生产和传播将变得越来越高效而低成本，意味着虚假信息可以被批量地、大规模地生产、传播。此外，随着生成式AI的持续改进，区别AI生成的内容和人类创造的内容将变得越来越困难，这给识别、打击虚假信息提出挑战。总之，在AIGC

42、和来源于人类和现实世界的内容越来越难以区分的时代，人工智能有意或者无意制造的虚假信息将带来更大的社会影响，所谓的AI时代恐怕会成为人类的后真相时代。二是AI诈骗等网络攻击。近年来，国内外涉及AI换脸、声音合成的诈骗案件呈多发之势，如2019年不法分子通过合成欧洲某能源公司CEO的声音成功诈骗2 2 万欧元；2 0 2 1年诈骗团队利用AI换脸技术伪造埃隆马斯克的虚假视频，半年诈骗价值超过2 亿人民币的数字货币；2 0 2 3年4月，诈骗分子通过AI换脸和声音合成技术伪造实时视频通话，在成功骗取福州市某科技公司法人代表的信任后，让该法人代表在10 分钟内转账430 万元到其银行账户。这些AI诈骗

43、之所以得，在很大程度上是因为生成式AI生成的虚假内容已经达到了足以以假乱真、普通人难以甄别真伪的水平。总之，生成式AI可能将电信诈骗等网络攻击提升到新的精细化水平，可以让网络攻击者“工业化”地组织“鱼叉式网络钓鱼”等网络攻击，进而牟取非法收益。在这个意义上，生成式AI带来的人工智能新时代，可能也是虚假信息和网络攻击的新时代。针对生成式AI建立必要的安全防护措施，防范打击潜在恶用和滥用行为，将成为生成式AI治理的重中之重。因此，需要通过建立有效的AI治理机制和规则来妥善应对这些安全风险，打造可信的、负责任的、以人为本的生成式AI应用。但是，生成式AI自身的一些特征给有效的AI治理提出了额外的挑战

44、。一是大语言模型本身的可解释性问题。可解释性意味着对模型如何产生其输出的深度理解。但是，大语言模型的输出并不完全是可预测的、可解释的。可以说，现在的大语言模型越来越成为全知全See Will Douglas Heaven,“Geoffrey Hinton Tells Us Why Hes Now Scared of the Tech He Helped Build,May 2,2023,https:/ by May 6,2023.参见李哲：用AI换脸来诈骗，防不胜防？，https:/ 0 2 3年5月2 6 日访间。See Waleed Rikab,“Generative Al is Enab

45、ling Fraud and Misinformation,Jan.17,2023,https:/ by May 28,2023.36：2023年第4期上海政法学院学报（法治论丛）能但却不可知的机器，因为这些所谓的机器学习模型是“黑盒”（Black Box）算法。由于机器学习模型是在自主学习和自我编程，所以它们究竟学到了什么以及为何产生特定输出，常常是人类（包括模型的设计开发人员）所不能知晓和理解的。因此可以说，大语言模型增进了人类知识，而非人类理解。大语言模型的不透明性和不可解释性，给妥善应对解决大模型相关的事实编造、算法歧视、责任承担等问题提出挑战。二是大语言模型的涌现能力，意味着可能涌现

46、出有风险的行为。对于大语言模型而言，涌现能力的存在意味着它具有更大的潜力。这些越来越大的AI大模型涌现出来的能力甚至超过了其创造者的理解和控制，这意味着各种风险将可能相伴而来。目前技术专家的一个普遍担忧是，现在的AI大模型和将来的AGI可能形成自已的子目标（Sub-goals），可能导致出现不符合人类利益和价值观的行为。2三是AI大模型生态中基础模型提供者和下游开发者之间的信息不对称问题。大语言模型之所以被称为基础模型，是因为它具有一定程度的通用性和泛化能力，可以适应各种各样的任务。在AI大模型生态中，下游开发者可以基于基础模型开发、部署垂直领域和场景的模型应用。这意味着生成式AI应用的开发部

47、署是多个组织之间的协作。基础模型的原始开发者不可能完全清楚其模型在下游具体场景的使用情况，下游开发者因为没有参与原始模型的开发而可能并不完全清楚原始模型的能力、用途、局限性等情况。这可能增加出现失误和意外行为的可能性，尤其是考虑到下游开发者可能高估生成式AI模型的能力。因此可以说，就那些重要的、可能影响个人权益的应用场景而言，多个主体协作开发、部署生成式AI应用，可能带来更高程度的风险。三、生成式人工智能治理的域外经验面对生成式人工智能的迅猛发展及其风险挑战，各界呼吁加强AI治理，并开始探索新的治理举措。例如，面对ChatGPT、G PT-4等生成式AI模型带来的问题和引发的争议，联合国教科文

48、组织（U NESCO）呼吁全球各国毫不迟延地执行其人工智能伦理问题建议书（RecommendationontheEthics of ArtificialIntelligence），打造合乎伦理道德的人工智能。UNESCO认为，人工智能伦理问题建议书作为首个全球性的AI伦理框架，为人工智能发展提供了所有必要的保护措施。本文重点论述国外在监管层面和技术实践层面的发展状况。在监管层面，目前主要存在两种不同的监管路径。一种是以英国和美国为代表的轻监管路径，强调基于具体应用场景和风险大小的行业分散监管，聚焦于监管AI技术的使用而非AI技术本身或整个行业，确保监管的相称性和适应性。例如，对于AI监管，英国

49、不考虑制定新的监管规则，或成See Henry Kissinger et al.,“ChatGPT Heralds an Intellectual Revolution,Feb.24,2023,https:/ by April29,2023.See Yoshua Bengio,“How Rogue AIs may Arise,May 22,2022,https:/yoshuabengio.org/2023/05/22/how-rogue-ais-may-arise/,accessed byMay 27,2023.37迈向可信AI：C h a t G PT 类生成式工智能的治理挑战及应对立新的监

50、管机构，而是将既有监管适用于AI系统，旨在促进创新和投资，把英国打造成AI超级大国。2023年3月2 9 日，英国政府发布政策文件一个促创新的人工智能监管路径（APro-innovationApproachto AI Negulation），在其中提出了其AI监管和治理框架。英国政府认为，考虑到AI技术进化的速度，需要采取敏捷的、迭代性的路径。针对企业提出新的僵硬且严苟苛的立法要求，可能抑制AI创新，并限制对未来技术突破进展作出快速响应的能力。提议的AI监管框架的基础是5项非法定的原则，包括安全（Safety）、安保（Security）和稳健性（Robustness），适当的透明度和可解释性，

下载提示：咨信网仅提供存储空间/不修改/不编辑

【自信AI创作助手】【自信AI导航】
1、请仔细预览页面，基本判断完整性，对于直接下载带来的问题请及时与客服沟通；下载的文档，不会出现我们的网址水印。
2、该文档所得收入（下载+内容+预览）归上传者、原创作者；如果您是本文档原作者，请点此认领！既往收益都归您。

同意并开始全文预览

举报此文档有问题？有机会获“体验VIP”奖励！

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

10 金币 0人已下载

申诉本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请申请举报、认领或删除 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 迈向可信 AI ChatGPT 生成人工智能治理挑战应对

咨信网温馨提示：
1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时私信或留言给本站上传会员【自信****多点】，需本站解决可联系【微信客服】、【 QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”（推荐），意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：4008-655-100；投诉/维权电话：4009-655-100。