2023大模型可信赖研究报告.pdf
《2023大模型可信赖研究报告.pdf》由会员分享,可在线阅读,更多相关《2023大模型可信赖研究报告.pdf(48页珍藏版)》请在咨信网上搜索。
1、大模型大模型可信赖研究报告可信赖研究报告(2 2023023 年)年)上海商汤智能科技有限公司中国信息通信研究院云计算与大数据研究所2023 年 12 月编编 制制 说说 明明本研究报告自 2023 年 09 月启动编制,分为前期研究、框架设计、文稿起草、征求意见和修改完善五个阶段,针对大模型可信赖问题面向大模型的技术提供方、服务应用方开展了深度访谈和调研等工作。本报告由上海商汤智能科技有限公司和中国信息通信研究院云计算与大数据研究所共同撰写,撰写过程得到了人工智能关键技术和应用评测工业和信息化部重点实验室的大力支持。本报告主要贡献单位(排名不分先后)包括:蚂蚁科技集团股份有限公司、阿里巴巴集
2、团、阿里云计算有限公司、北京百度网讯科技有限公司。前前言言近年来,深度学习技术取得了突破性进展,大模型作为其中的典型代表,已经在自然语言处理、图像处理、多模态应用等领域取得了令人瞩目的成果,为经济社会发展带来新机遇。但随着大模型应用规模扩大、应用场景拓展,其风险问题也逐渐凸显,如安全漏洞、隐私泄露、易受攻击、偏见歧视、侵权滥用等,如何有效防范治理大模型风险、推动大模型可信落地引起社会各界高度关注。全球各界对大模型的可信赖问题展开了广泛的探索研究。在国际层面,政府间国际组织从人工智能伦理准则等基本共识出发,逐步深入推动大模型政策法规监管和产业治理实践落地。在国家层面,各主要经济体正加快推进大模型
3、治理监管相关政策制定步伐。在产业层面,各行业机构与科技企业积极关注大模型风险,通过行业自律、技术及管理等具体实践措施推进大模型可信赖落地。本报告重点针对产业界大模型可信赖实践开展研究。首先,重点梳理了大模型发展现状,点明大模型的风险来源。其次,从大模型涉及的关键要素和可信维度出发,全面分析大模型面临的各项风险并进行整理归纳,形成大模型风险全景视图。再次,针对大模型在框架、数据、模型和生成内容等层面的风险,系统梳理了产业界保障大模型可信赖的关键举措。最后,本报告指出了当前大模型可信赖发展面临的问题及挑战,从多个维度提出了参考建议。大模型与行业融合正不断加深,风险问题仍在不断暴露,相应的可信赖实践
4、也在持续涌现。本研究报告对大模型可信赖实践的认识和理解还有待加强,报告中如有不足之处,还请各方专家读者不吝指正。目目录录一、大模型发展现状.1(一)大模型驱动新一轮科技革命.1(二)大模型加速赋能产业应用.1(三)大模型可信赖备受关注.3二、大模型风险分析.7(一)大模型风险视图.7(二)框架层面,软件漏洞是现有深度学习框架短板.8(三)数据层面,隐私风险与有害数据导致模型不可靠.9(四)模型层面,提示词攻击诱发模型脆弱性风险.11(五)生成内容层面,安全风险和不可追溯是重点难题.14三、大模型可信赖实践.17(一)框架层面,可信框架与执行环境保障运行安全.17(二)数据层面,安全检测及处理助
5、力大模型可靠.19(三)模型层面,全流程防控增强大模型可信.21(四)生成内容层面,过滤与标识实现内容可控可问责.25四、总结与展望.27(一)总结.27(二)展望.28附录.31可信赖实践案例 1:商汤科技 SenseTrust 可信 AI基础设施.31可信赖实践案例 2:蚂蚁集团蚁鉴 2.0-AI安全检测平台.35可信赖实践案例 3:阿里巴巴生成式人工智能发展与治理探索.37可信赖实践案例 4:百度大模型安全解决方案.40图图 目目 录录图 1 2023年企业大模型可信赖实践汇总.7图 2 大模型可信赖实践方案.8图 3 微软“Bing Chat”提示泄露事件.12图 4 大模型健壮性风险
6、.13图 5 大模型预训练阶段的长尾问题.14图 6 数据安全沙箱技术.20图 7 商汤伦理风险分类分级管理评估.22图 8 思维链技术.24图 9 大模型“机器+人工”内容审核机制.27图 10 数字水印技术流程图.27图 11“SenseTrust”商汤可信 AI基础设施.31图 12 蚁鉴 2.0-AI安全检测平台.35图 13 阿里巴巴生成式 AI治理实践及探索概览.37图 14 百度大模型安全解决方案.40图 15 百度大模型内容安全与评测体系.411一、一、大模型发展现状大模型发展现状(一)(一)大模型驱动新一轮科技革命大模型驱动新一轮科技革命近十余年间,人工智能技术泛化能力、创新
7、能力及应用效能不断提升,成为了推动经济及社会发展的重要引擎。2015 年前后,人脸识别算法达到接近人眼的识别能力,被视为人工智能技术工业级应用水平的代表性事件。2022 年,以 ChatGPT 为代表的大模型为用户带来了全新交互体验。通过其在内容生成、文本转化和逻辑推理等任务下的高效、易操作表现,大模型正逐步成为当前主流应用程序的重要组成部分。随着数据、算法和算力的不断突破,大模型将不断优化演进。在数据方面,海量、多模态数据将持续应用于大模型预训练,提升大模型的知识、理解和推理能力。在算法方面,将转向跨知识领域、跨语种、多模态特征的海量知识挖掘及执行等复杂任务的处理。在算力方面,智算中心及算力
8、网络等基础设施加速建设,为大模型的开发和服务提供充足性能支持。到 2026 年,Gartner 预测超过 80%的企业将使用生成式人工智能的 API 或模型,或在生产环境中部署支持大模型应用。以通用智能体、具身智能和类脑智能等为代表的大模型应用可能会带来新一轮的科技革命和产业变革。(二)(二)大模型加速赋能产业应用大模型加速赋能产业应用“大模型+”模式加速应用赋能,助推人工智能产业升级。当前,人工智能已经成为全球新兴技术领域的核心竞争力,各国政府加快2研发、部署人工智能技术,推动产业高速发展。据统计1,我国人工智能核心产业规模已达 5000 亿美元,企业数量超过 4300 家。2023年始,我
9、国大模型市场火爆,百度、商汤科技、科大讯飞、阿里巴巴等单位先后发布自研大模型,并于 2023 年下半年逐步面向用户提供服务。大模型广泛应用于能源、金融、教育、医疗、交通、政务等领域,主要应用场景聚焦数据分析、客服、营销、办公等。其中,以能源、金融为首的两大行业结合行业数据建设基础,积极布局大模型应用落地,加速行业智能化转型。大模型技术生态逐步完善,大幅降低行业应用门槛。一方面,开源大模型加速大模型应用渗透,打通预训练、微调、部署、评测等开发阶段,进一步降低大模型研发应用成本。2023 年 7 月,上海人工智能实验室正式开源了书生浦语大模型 70 亿参数的轻量级版本 InternLM-7B,并推
10、出首个面向大模型研发与应用的全链条开源体系,同时提供免费商用,受到了学术和产业界的广泛关注。同年 7月,OpenAI 向用户正式开放了代码解析插件 Code Interpreter,使得ChatGPT 和 GPT-4 可以根据用户问题来编写和执行代码,从而拓展了模型在数据分析、复杂计算与功能调用方面的能力。另一方面,大模型正在逐步向智能体方向进化,从理解生成迈向复杂任务处理能力。通过将大模型与动作执行器结合,智能体可以在接受用户输入后,通过大模型进行规划和决策,并对第三方插件或工具进行调用,从而实现复杂的任务处理能力,进一步降低了应用门槛。1https:/ 年 11月,联合国教科文组织通过了人
11、工智能伦理问题建议书,旨在促使人工智能系统造福人类、社会、环境和生态系统、防止危害,同时促进和平利用人工智能系统。2023 年 6 月,联合国秘书长安东尼奥古特雷斯明确提出计划在今年年底建立一个国际人工智能监管机构,定期审查人工智能治理工作。2023 年 11月,在英国人工智能安全峰会期间,包括中国、美国、英国等 28个国家和欧盟共同签署了布莱切利宣言,确保人工智能以人为本、值得信赖并负责任,通过国际伦理和其他相关倡议促进合作,应用人工智能带来的广泛风险。同年 11月,世界互联网大会发布了发展负责任的生成式人工智能研究报告及共识文件,就发展负责任的生成式人工智能提出十条共识。在标准4方面,IS
12、O/IEC JTC1/SC42 人工智能分委会正在开展人工智能可信赖国际标准研制工作,为指导利益相关方研发、使用可信赖人工智能相关技术和系统提供参考,主要标准包括 ISO/IEC TR 24028:2020人工智能的可信赖概述、ISO/IEC 38507:2022组织使用人工智能的治理影响等。全球主要经济体加快推进大模型治理和监管相关政策制定步伐。中国在人工智能监管方面主张“包容审慎的分类分级监管”原则,国家网信办已于 2023 年 7 月 10 日颁布了首部面向大模型监管的生成式人工智能服务管理暂行办法,后续将进一步针对生成式人工智能技术特点及其在有关行业和领域的服务应用,制定相应的分类分级
13、监管规则或指引。2023 年 10 月 8 日,中国科技部发布科技伦理审查办法(试行),提出从事人工智能科技活动的单位,研究内容涉及科技伦理敏感领域的,应设立科技伦理(审查)委员会,并建立伦理高风险科技活动的清单制度,对可能产生较大伦理风险挑战的新兴科技活动实施清单管理。2023 年 10 月 18 日,国家网信办发布全球人工智能治理倡议,提出发展人工智能应坚持相互尊重、平等互利的原则,各国无论大小、强弱,无论社会制度如何,都有平等发展和利用人工智能的权利。在标准方面,中国信息通信研究院已经启动大规模预训练模型技术和应用评估方法系列标准研制的工作,全面覆盖大模型的开发、部署和应用环节,其中第四
14、部分可信要求是目前国内首项针对大模型领域的可信赖标准。与此同时,全国信息安全标准化技术委员会已经启动包括5信息安全技术 生成式人工智能服务安全基本要求在内的三项生成式人工智能安全国家标准编制工作,以支撑大模型的监管落地。欧盟现行人工智能立法仍主要集中在传统人工智能,但已经开始关注通用人工智能以及生成式人工智能的问题,主张尊重人格尊严、个人自由和保护数据及隐私安全。2023 年 6 月 14 日,欧洲议会投票通过人工智能法案,该法案基于风险等级将人工智能系统分成四类,并制定了不同程度的监管要求。该法案提出生成式人工智能系统通常属于有限风险的人工智能系统,需遵守最低限度的透明度义务,但可能会因其适
15、用的领域和生成的内容而落入高风险人工智能系统的范畴,并明确了通用人工智能、生成式人工智能以及基础模型提供者等不同主体的合规义务。为配合法案落地,欧洲电信标准化协会(ETSI)正在计划将人工智能安全工作组重组为人工智能安全技术委员会,进一步加强法案配套标准的研制工作。美国主张监管需以促进人工智能负责任的创新为目标,应通过监管和非监管措施减少人工智能开发和部署的不必要障碍,同时保护美国的技术、经济和国家安全、公民自由、人权、法治、隐私和尊重知识产权等核心价值观。2023 年 5 月 13 日,美国白宫总统科技顾问委员会(PCAST)成立生成式人工智能工作组,以帮助评估关键机遇和风险,并就如何更好地
16、确保这些技术的开发和部署尽可能公平、负责任和安全提供意见。2023 年 10 月 30 日,美国总统拜登签署人工智能行政令,旨在加强对人工智能潜在风险的监管,发展安全、可靠和值得信赖的人工智能,促进人工智能创新,确保美国6在人工智能领域继续领跑全球。同时行政令在标准方面,提出美国国家标准与技术研究所(NIST)将制定严格的人工智能安全测试标准,人工智能系统在公开发布前需根据这些标准进行广泛的测试以确保安全。业界人士积极呼吁加强人工智能监管,企业加速大模型可信赖技术落地。2023 年 3 月,特斯拉首席执行官埃隆马斯克、苹果联合创始人史蒂夫沃兹尼亚克以及其他上千名 AI 研究人员签署公开信,呼吁
17、暂停研究比 GPT-4 更先进的 AI 技术,提醒更多的用户关注大模型的潜在危险。由微软等企业发起的商业软件联盟(BSA)公开发文,呼吁在国家隐私立法基础上制定管理人工智能使用的规则。2023 年 7 月 21 日,亚马逊、Anthropic、谷歌、Inflection、Meta、微软和 OpenAI 七家企业自愿向美国政府做出围绕安全、保障和信任等原则的自愿性承诺,主要内容包括开发部署面向生成内容的数字水印技术,公开披露模型或系统的功能、局限性和适用领域,以及优先研究人工智能系统带来的社会风险等。目前,微软、谷歌、OpenAI、百度、商汤科技、蚂蚁等企业都发布了面向大模型的可信赖工具或平台,
18、例如商汤科技的可信 AI 基础设施平台 SenseTrust 包含完整覆盖数据、模型、应用治理环节的可信 AI 治理工具,助力打造可信赖的大模型服务。7图 1 2023 年企业大模型可信赖实践汇总大模型治理和监管已经成为全球国际组织和主要经济体的首要目标,各国的监管机构正在尝试通过法律法规以及标准文件对大模型进行治理和监管,行业各界也积极推动人工智能治理工作。但与传统人工智能的风险相比,大模型的风险来源涉及框架、数据、模型、生成内容等多种因素,因此更加具有不确定性,亟需通过技术、管理和监管等手段进行协同治理。二、二、大模型风险分析大模型风险分析(一)(一)大模型风险视图大模型风险视图大模型快速
19、部署和广泛应用的同时,也诱发了更多的风险隐患:一是框架风险,深度学习框架面临物理、网络层面的恶意攻击,导致大模型所依赖的基础设施稳定性和安全性难以保障;二是数据风险,采集及处理海量、多模态的训练数据可能会引入更多的有害数据,容易引发个人隐私泄露、知识产权侵权、数据偏见等问题;三是模型风险,现阶段,大模型抗干扰能力相对较弱,存在遭受恶意攻击、决策偏见以及模型运营风险等问题;四是生成内容风险,大模型存在“幻觉”现象,答非所问、违规不良信息生成等问题成为大模型最受关注的风险。大模型高效、便捷的内容生成能力大幅降8低了诈骗、钓鱼邮件等恶意行为的门槛,而针对生成内容的追溯保障机制目前尚未完善,使得恶意内
20、容生成的监管更加困难。本报告以可靠性、健壮性、安全性、公平性、可问责、可解释等大模型可信赖目标为重点方向,从框架、数据、模型、生成内容等大模型风险要素角度分析,并结合数据采集、模型预训练、模型微调、部署运行、优化更新等大模型全生命周期治理理念,提出大模型可信赖实践方案,全面提升大模型的可信赖表现。图 2 大模型可信赖实践方案(二)(二)框架层面,软件漏洞是现有深度学习框架短板框架层面,软件漏洞是现有深度学习框架短板大模型领域的基础设施风险主要包括深度学习框架和开发套件等软件层面的漏洞,以及运行环境的不稳定性。可能的风险涵盖物理攻击、网络攻击、运行环境篡改、运维故障等多个方面。在大模型训练阶段,
21、深度学习框架、开发组件以及第三方依赖库存在潜在漏洞,增加了受到外部恶意攻击的风险。在这个阶段,9攻击者有可能通过恶意程序入侵等手段,窃取模型、训练数据以及训练脚本等核心资产,从而导致大模型的训练数据和模型参数文件的泄露。早在 2020 年 9 月,TensorFlow 就被曝出多项安全漏洞,其中危险等级严重的漏洞 2 个,高危漏洞 8 个,中危漏洞 12 个,低危漏洞 2 个。这些漏洞可能导致任意代码执行、信息泄露以及拒绝服务等。深度学习框架的运行环境容错性低,核心资产保护面临挑战。大模型的运行环境不稳定性风险主要来自大模型服务的运维以及模型迭代更新时稳健性较差所导致的服务等级协议(SLA)服
22、务水平不足,从而可能影响大模型服务可用性。在训练和推理过程中,由于设备、网络或通信故障,可能导致模型训练或推理任务中断。此外,大模型的运行环境同样面临安全性风险。一方面,缺乏基础设施与其他系统的严格网络隔离可能导致来自内部其他系统的横向渗透风险。如果攻击者成功侵入基础设施系统并注入后门、木马等恶意程序,整个系统将面临严重的安全风险。另一方面,大模型的运行环境缺乏面向训练数据、模型和网络通信的安全防护措施,使得训练数据、模型参数文件等核心资产容易受到泄露、篡改和窃取等威胁。(三)(三)数据层面,隐私风险与有害数据导致模型不可靠数据层面,隐私风险与有害数据导致模型不可靠大模型的训练依赖于大规模、多
23、样化且高质量的数据集。这些训练数据通常涵盖各类网页、公共语料库、社交媒体、书籍、期刊等公开数据来源,其中未经筛选和审核的数据成为大模型不可忽视10的潜在风险。因此,在大模型的全新范式下,数据来源不可信、数据违规处理、投毒攻击、数据内容有害、数据偏见、数据样本不足正逐步成为大模型在数据方面的主要风险。大模型训练数据的采集、预处理等数据处理活动可能涉及数据来源管理困难、隐私泄露等相关风险。在数据来源管理方面,主要问题集中在数据来源的不可靠性和不可追溯性。大模型训练数据通常涵盖图像、视频、文本、音频等多种数据类型,涉及自采集、商业采购、公开数据集等多种渠道。然而,部分公开数据集的来源缺乏充分的验证和
24、审核,导致预训练数据集中存在来源不清、被恶意投毒的数据。大量训练数据采集的同时难以避免带毒数据的引入,增加了数据来源管理的难度。在隐私泄露方面,数据采集阶段可能会由于采集方式、采集工具的不合规,导致未获取个人信息授权,使得预训练数据集含有未授权个人信息。在数据预处理阶段,由于数据脱敏机制的不完善,个人信息未完全去标识化,致使预训练模型学习、理解到含有个人信息的知识,其生成内容可能会含有个人信息或关联个人信息,存在个人信息泄露的风险。有害内容、低质量数据导致模型生成违规内容。大模型通过学习海量数据中的知识、理解常识并生成内容,数据中存在有害内容和数据偏见等质量问题可能导致模型生成内容存在违规信息
25、或决策偏见等问题。11在数据内容有害性风险方面,模型预训练阶段使用大量无监督学习预训练数据集,如果其中存在一定量的有害内容,将影响预训练模型的理解和生成能力。同时,在模型微调阶段,微调数据若包含不准确、虚假信息等内容,可能导致模型无法正确对下游任务模型进行价值对齐。数据偏见风险主要源自大模型的预训练和微调阶段。一方面,模型预训练所使用的数据集样本分布可能缺乏均衡性,包括性别、民族、宗教、教育等相关样本比例关系不当。另一方面,模型微调阶段可能由于人工标注员的主观意识形态偏差,引入对微调数据的构建和价值排序的偏见,从而导致微调数据存在价值观上的偏见歧视问题。(四)(四)模型层面,提示词攻击诱发模型
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2023 模型 可信赖 研究 报告
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【Stan****Shan】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【Stan****Shan】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。