分销赏收藏举报申诉 / 48

立即下载开通VIP

当前位置：首页 > 研究报告 > 其他 > 2023大模型可信赖研究报告.pdf

2023大模型可信赖研究报告.pdf

上传人：Stan****Shan

文档编号：1266117

上传时间：2024-04-19

格式：PDF

页数：48

大小：2.45MB

《2023大模型可信赖研究报告.pdf》由会员分享，可在线阅读，更多相关《2023大模型可信赖研究报告.pdf（48页珍藏版）》请在咨信网上搜索。

1、大模型大模型可信赖研究报告可信赖研究报告（2 2023023 年）年）上海商汤智能科技有限公司中国信息通信研究院云计算与大数据研究所2023 年 12 月编编制制说说明明本研究报告自 2023 年 09 月启动编制，分为前期研究、框架设计、文稿起草、征求意见和修改完善五个阶段，针对大模型可信赖问题面向大模型的技术提供方、服务应用方开展了深度访谈和调研等工作。本报告由上海商汤智能科技有限公司和中国信息通信研究院云计算与大数据研究所共同撰写，撰写过程得到了人工智能关键技术和应用评测工业和信息化部重点实验室的大力支持。本报告主要贡献单位(排名不分先后)包括:蚂蚁科技集团股份有限公司、阿里巴巴集

2、团、阿里云计算有限公司、北京百度网讯科技有限公司。前前言言近年来，深度学习技术取得了突破性进展，大模型作为其中的典型代表，已经在自然语言处理、图像处理、多模态应用等领域取得了令人瞩目的成果，为经济社会发展带来新机遇。但随着大模型应用规模扩大、应用场景拓展，其风险问题也逐渐凸显，如安全漏洞、隐私泄露、易受攻击、偏见歧视、侵权滥用等，如何有效防范治理大模型风险、推动大模型可信落地引起社会各界高度关注。全球各界对大模型的可信赖问题展开了广泛的探索研究。在国际层面，政府间国际组织从人工智能伦理准则等基本共识出发，逐步深入推动大模型政策法规监管和产业治理实践落地。在国家层面，各主要经济体正加快推进大模型

3、治理监管相关政策制定步伐。在产业层面，各行业机构与科技企业积极关注大模型风险，通过行业自律、技术及管理等具体实践措施推进大模型可信赖落地。本报告重点针对产业界大模型可信赖实践开展研究。首先，重点梳理了大模型发展现状，点明大模型的风险来源。其次，从大模型涉及的关键要素和可信维度出发，全面分析大模型面临的各项风险并进行整理归纳，形成大模型风险全景视图。再次，针对大模型在框架、数据、模型和生成内容等层面的风险，系统梳理了产业界保障大模型可信赖的关键举措。最后，本报告指出了当前大模型可信赖发展面临的问题及挑战，从多个维度提出了参考建议。大模型与行业融合正不断加深，风险问题仍在不断暴露，相应的可信赖实践

4、也在持续涌现。本研究报告对大模型可信赖实践的认识和理解还有待加强，报告中如有不足之处，还请各方专家读者不吝指正。目目录录一、大模型发展现状.1（一）大模型驱动新一轮科技革命.1（二）大模型加速赋能产业应用.1（三）大模型可信赖备受关注.3二、大模型风险分析.7（一）大模型风险视图.7（二）框架层面，软件漏洞是现有深度学习框架短板.8（三）数据层面，隐私风险与有害数据导致模型不可靠.9（四）模型层面，提示词攻击诱发模型脆弱性风险.11（五）生成内容层面，安全风险和不可追溯是重点难题.14三、大模型可信赖实践.17（一）框架层面，可信框架与执行环境保障运行安全.17（二）数据层面，安全检测及处理助

5、力大模型可靠.19（三）模型层面，全流程防控增强大模型可信.21（四）生成内容层面，过滤与标识实现内容可控可问责.25四、总结与展望.27（一）总结.27（二）展望.28附录.31可信赖实践案例 1：商汤科技 SenseTrust 可信 AI基础设施.31可信赖实践案例 2：蚂蚁集团蚁鉴 2.0-AI安全检测平台.35可信赖实践案例 3：阿里巴巴生成式人工智能发展与治理探索.37可信赖实践案例 4：百度大模型安全解决方案.40图图目目录录图 1 2023年企业大模型可信赖实践汇总.7图 2 大模型可信赖实践方案.8图 3 微软“Bing Chat”提示泄露事件.12图 4 大模型健壮性风险

6、.13图 5 大模型预训练阶段的长尾问题.14图 6 数据安全沙箱技术.20图 7 商汤伦理风险分类分级管理评估.22图 8 思维链技术.24图 9 大模型“机器+人工”内容审核机制.27图 10 数字水印技术流程图.27图 11“SenseTrust”商汤可信 AI基础设施.31图 12 蚁鉴 2.0-AI安全检测平台.35图 13 阿里巴巴生成式 AI治理实践及探索概览.37图 14 百度大模型安全解决方案.40图 15 百度大模型内容安全与评测体系.411一、一、大模型发展现状大模型发展现状（一）（一）大模型驱动新一轮科技革命大模型驱动新一轮科技革命近十余年间，人工智能技术泛化能力、创新

7、能力及应用效能不断提升，成为了推动经济及社会发展的重要引擎。2015 年前后，人脸识别算法达到接近人眼的识别能力，被视为人工智能技术工业级应用水平的代表性事件。2022 年，以 ChatGPT 为代表的大模型为用户带来了全新交互体验。通过其在内容生成、文本转化和逻辑推理等任务下的高效、易操作表现，大模型正逐步成为当前主流应用程序的重要组成部分。随着数据、算法和算力的不断突破，大模型将不断优化演进。在数据方面，海量、多模态数据将持续应用于大模型预训练，提升大模型的知识、理解和推理能力。在算法方面，将转向跨知识领域、跨语种、多模态特征的海量知识挖掘及执行等复杂任务的处理。在算力方面，智算中心及算力

8、网络等基础设施加速建设，为大模型的开发和服务提供充足性能支持。到 2026 年，Gartner 预测超过 80%的企业将使用生成式人工智能的 API 或模型，或在生产环境中部署支持大模型应用。以通用智能体、具身智能和类脑智能等为代表的大模型应用可能会带来新一轮的科技革命和产业变革。（二）（二）大模型加速赋能产业应用大模型加速赋能产业应用“大模型+”模式加速应用赋能，助推人工智能产业升级。当前，人工智能已经成为全球新兴技术领域的核心竞争力，各国政府加快2研发、部署人工智能技术，推动产业高速发展。据统计1，我国人工智能核心产业规模已达 5000 亿美元，企业数量超过 4300 家。2023年始，我

9、国大模型市场火爆，百度、商汤科技、科大讯飞、阿里巴巴等单位先后发布自研大模型，并于 2023 年下半年逐步面向用户提供服务。大模型广泛应用于能源、金融、教育、医疗、交通、政务等领域，主要应用场景聚焦数据分析、客服、营销、办公等。其中，以能源、金融为首的两大行业结合行业数据建设基础，积极布局大模型应用落地，加速行业智能化转型。大模型技术生态逐步完善，大幅降低行业应用门槛。一方面，开源大模型加速大模型应用渗透，打通预训练、微调、部署、评测等开发阶段，进一步降低大模型研发应用成本。2023 年 7 月，上海人工智能实验室正式开源了书生浦语大模型 70 亿参数的轻量级版本 InternLM-7B，并推

10、出首个面向大模型研发与应用的全链条开源体系，同时提供免费商用，受到了学术和产业界的广泛关注。同年 7月，OpenAI 向用户正式开放了代码解析插件 Code Interpreter，使得ChatGPT 和 GPT-4 可以根据用户问题来编写和执行代码，从而拓展了模型在数据分析、复杂计算与功能调用方面的能力。另一方面，大模型正在逐步向智能体方向进化，从理解生成迈向复杂任务处理能力。通过将大模型与动作执行器结合，智能体可以在接受用户输入后，通过大模型进行规划和决策，并对第三方插件或工具进行调用，从而实现复杂的任务处理能力，进一步降低了应用门槛。1https:/ 年 11月，联合国教科文组织通过了人

11、工智能伦理问题建议书，旨在促使人工智能系统造福人类、社会、环境和生态系统、防止危害，同时促进和平利用人工智能系统。2023 年 6 月，联合国秘书长安东尼奥古特雷斯明确提出计划在今年年底建立一个国际人工智能监管机构，定期审查人工智能治理工作。2023 年 11月，在英国人工智能安全峰会期间，包括中国、美国、英国等 28个国家和欧盟共同签署了布莱切利宣言，确保人工智能以人为本、值得信赖并负责任，通过国际伦理和其他相关倡议促进合作，应用人工智能带来的广泛风险。同年 11月，世界互联网大会发布了发展负责任的生成式人工智能研究报告及共识文件，就发展负责任的生成式人工智能提出十条共识。在标准4方面，IS

12、O/IEC JTC1/SC42 人工智能分委会正在开展人工智能可信赖国际标准研制工作，为指导利益相关方研发、使用可信赖人工智能相关技术和系统提供参考，主要标准包括 ISO/IEC TR 24028:2020人工智能的可信赖概述、ISO/IEC 38507:2022组织使用人工智能的治理影响等。全球主要经济体加快推进大模型治理和监管相关政策制定步伐。中国在人工智能监管方面主张“包容审慎的分类分级监管”原则，国家网信办已于 2023 年 7 月 10 日颁布了首部面向大模型监管的生成式人工智能服务管理暂行办法，后续将进一步针对生成式人工智能技术特点及其在有关行业和领域的服务应用，制定相应的分类分级

13、监管规则或指引。2023 年 10 月 8 日，中国科技部发布科技伦理审查办法（试行），提出从事人工智能科技活动的单位，研究内容涉及科技伦理敏感领域的，应设立科技伦理（审查）委员会，并建立伦理高风险科技活动的清单制度，对可能产生较大伦理风险挑战的新兴科技活动实施清单管理。2023 年 10 月 18 日，国家网信办发布全球人工智能治理倡议，提出发展人工智能应坚持相互尊重、平等互利的原则，各国无论大小、强弱，无论社会制度如何，都有平等发展和利用人工智能的权利。在标准方面，中国信息通信研究院已经启动大规模预训练模型技术和应用评估方法系列标准研制的工作，全面覆盖大模型的开发、部署和应用环节，其中第四

14、部分可信要求是目前国内首项针对大模型领域的可信赖标准。与此同时，全国信息安全标准化技术委员会已经启动包括5信息安全技术生成式人工智能服务安全基本要求在内的三项生成式人工智能安全国家标准编制工作，以支撑大模型的监管落地。欧盟现行人工智能立法仍主要集中在传统人工智能，但已经开始关注通用人工智能以及生成式人工智能的问题，主张尊重人格尊严、个人自由和保护数据及隐私安全。2023 年 6 月 14 日，欧洲议会投票通过人工智能法案，该法案基于风险等级将人工智能系统分成四类，并制定了不同程度的监管要求。该法案提出生成式人工智能系统通常属于有限风险的人工智能系统，需遵守最低限度的透明度义务，但可能会因其适

15、用的领域和生成的内容而落入高风险人工智能系统的范畴，并明确了通用人工智能、生成式人工智能以及基础模型提供者等不同主体的合规义务。为配合法案落地，欧洲电信标准化协会（ETSI）正在计划将人工智能安全工作组重组为人工智能安全技术委员会，进一步加强法案配套标准的研制工作。美国主张监管需以促进人工智能负责任的创新为目标，应通过监管和非监管措施减少人工智能开发和部署的不必要障碍，同时保护美国的技术、经济和国家安全、公民自由、人权、法治、隐私和尊重知识产权等核心价值观。2023 年 5 月 13 日，美国白宫总统科技顾问委员会（PCAST）成立生成式人工智能工作组，以帮助评估关键机遇和风险，并就如何更好地

16、确保这些技术的开发和部署尽可能公平、负责任和安全提供意见。2023 年 10 月 30 日，美国总统拜登签署人工智能行政令，旨在加强对人工智能潜在风险的监管，发展安全、可靠和值得信赖的人工智能，促进人工智能创新，确保美国6在人工智能领域继续领跑全球。同时行政令在标准方面，提出美国国家标准与技术研究所（NIST）将制定严格的人工智能安全测试标准，人工智能系统在公开发布前需根据这些标准进行广泛的测试以确保安全。业界人士积极呼吁加强人工智能监管，企业加速大模型可信赖技术落地。2023 年 3 月，特斯拉首席执行官埃隆马斯克、苹果联合创始人史蒂夫沃兹尼亚克以及其他上千名 AI 研究人员签署公开信，呼吁

17、暂停研究比 GPT-4 更先进的 AI 技术，提醒更多的用户关注大模型的潜在危险。由微软等企业发起的商业软件联盟（BSA）公开发文，呼吁在国家隐私立法基础上制定管理人工智能使用的规则。2023 年 7 月 21 日，亚马逊、Anthropic、谷歌、Inflection、Meta、微软和 OpenAI 七家企业自愿向美国政府做出围绕安全、保障和信任等原则的自愿性承诺，主要内容包括开发部署面向生成内容的数字水印技术，公开披露模型或系统的功能、局限性和适用领域，以及优先研究人工智能系统带来的社会风险等。目前，微软、谷歌、OpenAI、百度、商汤科技、蚂蚁等企业都发布了面向大模型的可信赖工具或平台，

18、例如商汤科技的可信 AI 基础设施平台 SenseTrust 包含完整覆盖数据、模型、应用治理环节的可信 AI 治理工具，助力打造可信赖的大模型服务。7图 1 2023 年企业大模型可信赖实践汇总大模型治理和监管已经成为全球国际组织和主要经济体的首要目标，各国的监管机构正在尝试通过法律法规以及标准文件对大模型进行治理和监管，行业各界也积极推动人工智能治理工作。但与传统人工智能的风险相比，大模型的风险来源涉及框架、数据、模型、生成内容等多种因素，因此更加具有不确定性，亟需通过技术、管理和监管等手段进行协同治理。二、二、大模型风险分析大模型风险分析（一）（一）大模型风险视图大模型风险视图大模型快速

19、部署和广泛应用的同时，也诱发了更多的风险隐患：一是框架风险，深度学习框架面临物理、网络层面的恶意攻击，导致大模型所依赖的基础设施稳定性和安全性难以保障；二是数据风险，采集及处理海量、多模态的训练数据可能会引入更多的有害数据，容易引发个人隐私泄露、知识产权侵权、数据偏见等问题；三是模型风险，现阶段，大模型抗干扰能力相对较弱，存在遭受恶意攻击、决策偏见以及模型运营风险等问题；四是生成内容风险，大模型存在“幻觉”现象，答非所问、违规不良信息生成等问题成为大模型最受关注的风险。大模型高效、便捷的内容生成能力大幅降8低了诈骗、钓鱼邮件等恶意行为的门槛，而针对生成内容的追溯保障机制目前尚未完善，使得恶意内

20、容生成的监管更加困难。本报告以可靠性、健壮性、安全性、公平性、可问责、可解释等大模型可信赖目标为重点方向，从框架、数据、模型、生成内容等大模型风险要素角度分析，并结合数据采集、模型预训练、模型微调、部署运行、优化更新等大模型全生命周期治理理念，提出大模型可信赖实践方案，全面提升大模型的可信赖表现。图 2 大模型可信赖实践方案（二）（二）框架层面，软件漏洞是现有深度学习框架短板框架层面，软件漏洞是现有深度学习框架短板大模型领域的基础设施风险主要包括深度学习框架和开发套件等软件层面的漏洞，以及运行环境的不稳定性。可能的风险涵盖物理攻击、网络攻击、运行环境篡改、运维故障等多个方面。在大模型训练阶段，

21、深度学习框架、开发组件以及第三方依赖库存在潜在漏洞，增加了受到外部恶意攻击的风险。在这个阶段，9攻击者有可能通过恶意程序入侵等手段，窃取模型、训练数据以及训练脚本等核心资产，从而导致大模型的训练数据和模型参数文件的泄露。早在 2020 年 9 月，TensorFlow 就被曝出多项安全漏洞，其中危险等级严重的漏洞 2 个，高危漏洞 8 个，中危漏洞 12 个，低危漏洞 2 个。这些漏洞可能导致任意代码执行、信息泄露以及拒绝服务等。深度学习框架的运行环境容错性低，核心资产保护面临挑战。大模型的运行环境不稳定性风险主要来自大模型服务的运维以及模型迭代更新时稳健性较差所导致的服务等级协议（SLA）服

22、务水平不足，从而可能影响大模型服务可用性。在训练和推理过程中，由于设备、网络或通信故障，可能导致模型训练或推理任务中断。此外，大模型的运行环境同样面临安全性风险。一方面，缺乏基础设施与其他系统的严格网络隔离可能导致来自内部其他系统的横向渗透风险。如果攻击者成功侵入基础设施系统并注入后门、木马等恶意程序，整个系统将面临严重的安全风险。另一方面，大模型的运行环境缺乏面向训练数据、模型和网络通信的安全防护措施，使得训练数据、模型参数文件等核心资产容易受到泄露、篡改和窃取等威胁。（三）（三）数据层面，隐私风险与有害数据导致模型不可靠数据层面，隐私风险与有害数据导致模型不可靠大模型的训练依赖于大规模、多

23、样化且高质量的数据集。这些训练数据通常涵盖各类网页、公共语料库、社交媒体、书籍、期刊等公开数据来源，其中未经筛选和审核的数据成为大模型不可忽视10的潜在风险。因此，在大模型的全新范式下，数据来源不可信、数据违规处理、投毒攻击、数据内容有害、数据偏见、数据样本不足正逐步成为大模型在数据方面的主要风险。大模型训练数据的采集、预处理等数据处理活动可能涉及数据来源管理困难、隐私泄露等相关风险。在数据来源管理方面，主要问题集中在数据来源的不可靠性和不可追溯性。大模型训练数据通常涵盖图像、视频、文本、音频等多种数据类型，涉及自采集、商业采购、公开数据集等多种渠道。然而，部分公开数据集的来源缺乏充分的验证和

24、审核，导致预训练数据集中存在来源不清、被恶意投毒的数据。大量训练数据采集的同时难以避免带毒数据的引入，增加了数据来源管理的难度。在隐私泄露方面，数据采集阶段可能会由于采集方式、采集工具的不合规，导致未获取个人信息授权，使得预训练数据集含有未授权个人信息。在数据预处理阶段，由于数据脱敏机制的不完善，个人信息未完全去标识化，致使预训练模型学习、理解到含有个人信息的知识，其生成内容可能会含有个人信息或关联个人信息，存在个人信息泄露的风险。有害内容、低质量数据导致模型生成违规内容。大模型通过学习海量数据中的知识、理解常识并生成内容，数据中存在有害内容和数据偏见等质量问题可能导致模型生成内容存在违规信息

25、或决策偏见等问题。11在数据内容有害性风险方面，模型预训练阶段使用大量无监督学习预训练数据集，如果其中存在一定量的有害内容，将影响预训练模型的理解和生成能力。同时，在模型微调阶段，微调数据若包含不准确、虚假信息等内容，可能导致模型无法正确对下游任务模型进行价值对齐。数据偏见风险主要源自大模型的预训练和微调阶段。一方面，模型预训练所使用的数据集样本分布可能缺乏均衡性，包括性别、民族、宗教、教育等相关样本比例关系不当。另一方面，模型微调阶段可能由于人工标注员的主观意识形态偏差，引入对微调数据的构建和价值排序的偏见，从而导致微调数据存在价值观上的偏见歧视问题。（四）（四）模型层面，提示词攻击诱发模型

26、脆弱性风险模型层面，提示词攻击诱发模型脆弱性风险大模型在模型开发和运营阶段都会面临多种模型内外部的风险，主要包括提示注入攻击等安全性问题、健壮性不足、偏见歧视以及模型运营风险等问题。提示注入攻击成为大模型安全性首要风险。提示注入攻击是一类以输入提示词作为攻击手段的恶意攻击。攻击者精心构造和设计特定的提示词，达到绕过大模型过滤策略的目的。根据窃取目标和攻击手段不同，可将提示注入攻击细分为以下三类。一是目标劫持，攻击者通过输入恶意示例的方式劫持模型的输出结果，并要求模型输出与其原输出内容不同的特定结果，从而恶意篡改生成内容。二是提示泄露，攻击者通过一些诱导性的上下文12提示，窃取大模型预制的初始化

27、提示内容，包括模型应该遵循的规则和特定敏感话题。攻击者可以通过该类攻击手段了解大模型的行为模式或者过滤策略。三是越狱攻击，攻击者通过模拟对话、角色扮演等虚构场景和行为方式，设定一系列特定的问答规则，尝试分散大模型的注意力，规避过滤策略，生成带有恶意目的的特定输出结果。除直接对大模型的输入内容进行提示注入攻击，攻击者也可以通过文件中内嵌恶意代码等形式间接进行提示注入攻击。以微软New Bing Chat 为代表的大模型，其结合检索和 API 调用功能的新组件引入了间接提示注入的风险。攻击者有可能通过在提示词中嵌入含有恶意代码或有害内容的网页链接或文件等手段，试图规避输入和输出端的过滤机制，以生成

28、特定的恶意内容。图 3 微软“Bing Chat”提示泄露事件13大模型在健壮性和泛化性方面仍然面临挑战。与传统的小参数量机器学习模型相比，虽然大模型通过使用亿级参数的训练数据进行无监督学习表现出对抗样本攻击和外部干扰的相对强健性，但仍存在健壮性和泛化性不足的潜在风险。例如，在大模型的输入提示词中引入一定程度的错别字符或文字、逻辑错误的词句以及段落等内容，会导致大模型理解偏差以及生成内容错误。图 4 大模型健壮性风险大模型的决策偏见歧视问题愈发突出。大模型的算法决策公平性是可信赖能力的重要指标，尤其在金融、医疗、教育等特殊行业中，这一指标对于处理关键问题的理解和生成任务至关重要。首先，预训练数

29、据自带的偏见歧视会导致预训练模型进一步放大偏见问题，长尾问题仍然是潜在偏见之一。其次，大模型本身可能根据数据样本的分布和属性，进一步提升对某类样本的敏感度，从而间接放大对这些偏见性知识的感知，进而导致更为严重的歧视性内容生成。14图 5 大模型预训练阶段的长尾问题大模型运营面临多方面挑战，API 安全问题至关重要。当前，模型即服务（MaaS）等高效而敏捷的部署方式正逐步成为现有大模型系统与服务的主流形式。一方面，在大模型服务实际运营环节，存在诸多服务运营相关的风险，包括但不限于批量注册、盗号、撞库等账号安全性问题，以及恶意使用、机器作弊、审核资源浪费等运营安全性问题。以 ChatGPT 为例，

30、该服务推出仅两个月，注册用户已超过 1 亿。随着用户规模不断增长，各类违规账号也在不断活跃。于是自 2023 年 4 月起，OpenAI大规模封禁各类违规注册账号。另一方面，大模型主要通过 API 提供对外服务。在服务运营阶段，攻击者可能通过注入漏洞利用攻击、未授权漏洞利用攻击、越权访问漏洞利用攻击、代码设计漏洞攻击以及第三方组件漏洞利用攻击等方法，引发 API崩溃、数据泄露以及拒绝服务等严重问题。例如，研究人员发现通过提示词混合 Python 代码的模板函数可以利用大模型应用框架 LangChain的接口远程执行任意 Python代码。（五）（五）生成内容层面，安全风险和不可追溯是重点难题生

31、成内容层面，安全风险和不可追溯是重点难题当前，大模型的生成内容中仍然存在一定程度的内容安全和不可追溯风险，主要包括虚假有害内容、上下文逻辑性错误、问答与15提问的相关性较差、与社会主流价值观冲突等风险，进一步降低了以大模型为生产工具的恶意行为的门槛，对个人、组织以及社会的稳定发展造成严重影响。其主要风险包括以下几方面：生成内容“幻觉”现象频发。大模型对输入的问题生成不真实、与现实世界常识相违背的虚假有害信息的现象，被称为“幻觉”问题。大模型常见的幻觉主要有三类：第一是和用户输入冲突的幻觉，大模型的理解能力极大依赖于训练数据集的规模、种类、样本的丰富度，理解能力的不足将会导致大模型无法准确生成用

32、户输入的问题答案，影响大模型的生成内容可信度。第二是和已生成的上下文冲突的幻觉，尽管目前大模型具备广泛的世界知识，但其仍是一个黑盒、逻辑推理不够精确的系统。大模型通过理解输入内容的 token，预测并逐字逐句生成输出结果，其生成的内容虽符合训练数据中语句的表达连贯性，却可能缺乏合理、清晰的逻辑性，与上下文内容冲突或生成重复性内容。第三是和事实知识冲突的幻觉，这一类幻觉的研究难度更大，对用户实际使用体验的干扰也最大。例如，大模型在生成医疗建议时可能会捏造错误的药品剂量，误导缺少专业医学知识的用户，直接危及用户健康。生成内容与社会主流价值观冲突。大模型的生成内容的安全性问题至关重要，如果大模型生成

33、民族仇视、偏见和歧视、政治和军事敏感、淫秽色情以及恐怖暴力等恶意内容，会对传统道德和社会核心价值观造成冲击，对个人、组织和社会都具有极其严重的负面影响。16生成内容欠缺合理、科学的推理过程。目前大模型的可解释性问题仍然研究学者重点关注的方向，针对大模型的可解释性研究主要分为事前解释和事后解释，其中事前解释是通过研究不同特征对预测结果的影响程度进行解释说明，事后解释更加侧重利用规则以及可解释性强的算法评估原有大模型的可解释性。然而，大模型所使用的训练数据和算法结构仍然是黑盒，难以完全解释目前大模型的内在机理和决策依据。生成内容不易追溯和保护。大模型由于具备通过学习海量的世界知识生成内容的能力，因

34、此在训练数据和生成内容方面会产生一系列的版权归属和保护难题。目前大模型服务通常会采用数字水印技术在生成内容中嵌入不可见、具备可追溯能力的标识，该类标识一般内含用户 ID 信息、大模型服务信息以及时间戳等信息，用于追溯不良违规生成内容，但目前仍然面临生成内容被二次创作、剪辑和裁切之后，标识内容可能会无法读取等问题，导致无法正确追溯到原始的大模型服务，难以明确界定责任归属。在知识产权的溯源方面，由于现有大模型的学习机制，其生成的内容有可能与原始的训练数据具有一定相似度，难以界定生成的内容是否对原始作品产生侵权行为。生成内容误用滥用现象对个人、团体以及社会造成不良影响。由于目前仍然缺乏对于使用大模型

35、生成能力的有效监督手段，部分用户在未充分进行培训和教育的前提下，可能将隐私信息误输入到大模型中，导致个人信息泄露。例如，2023 年 3 月，三星半导体部17门员工因三起利用 ChatGPT处理办公文件和修复程序源代码等事件，导致公司机密泄露。部分恶意使用者利用 FraudGPT 等恶意大模型作为违法活动的工具生成诈骗短信和钓鱼邮件，通过代码生成工具开发恶意程序、脚本等，窃取他人敏感个人信息。三、三、大模型可信赖实践大模型可信赖实践（一）（一）框架层面，可信框架与执行环境保障运行安全框架层面，可信框架与执行环境保障运行安全针对深度学习框架面临的软件漏洞风险与运行环境不可靠问题，一方面通过采用漏

36、洞管理、恶意程序检测以及访问控制等技术措施，降低深度学习框架受恶意访问和攻击的可能性，另一方面通过构建AI核心资产保护机制，保障深度学习框架运行环境的安全可信。1.可信赖框架降低恶意访问与攻击风险可信赖框架的实现需要从框架自身管理层面、框架外的平台层面以及用户管理层面进行安全保障。安全漏洞管理机制通过对 AI 框架进行定期的漏洞扫描，识别并记录框架漏洞信息，定时更新安全补丁修复漏洞，提升框架安全能力。恶意程序检测机制通过将检测模块直接集成在深度学习框架或者基础设施中，实现检测在训练或者推理任务执行的容器或虚拟机是否存在恶意攻击宿主机、宿主机上其他容器或者执行越权访问等容器逃逸行为。判别是否存在

37、勒索病毒以及恶意程序，并产生告警信息。访问控制和身份鉴别机制有效管理并核验登录用户的真实身份，对于多次登录失败的用户，应启用结束会话、限制非法登录次数等措施，以降低未授权操作所引发的风险。182.核心资产保护机制保障运行环境安全可信为保障深度学习框架的运行环境安全可信，通过构建加解密机制、完整性校验机制、训练任务中断恢复机制以及运行环境隔离机制等方式保障运行过程中 AI 核心资产的安全。加解密机制通过在深度学习框架和人工智能基础设施中添加加解密模块，实现对训练和推理过程中的数据和模型参数文件等 AI 核心资产进行保护，防止未授权人员进行非法访问、篡改数据。完整性校验机制通过对数据和模型相关文件

38、进行完整性校验，提升大模型在预训练、微调以及后续部署运行阶段的可靠性，通过密码算法或者完整性校验机制对数据和模型参数文件进行加解密处理，核验各阶段的文件完整性。训练任务中断恢复机制可以在故障发生后及时保存训练任务上下文及模型参数等信息，并且可支持在新的训练节点加载训练任务上下文及模型参数等信息，正常恢复原始训练任务，大幅提升大模型在训练阶段的可靠性。运行环境隔离机制通过设置独立的安全区域保障 AI 资产在训练和推理过程中的安全性。以可信执行环境技术（TEE）为例，TEE 是处理器中一个独立的安全区域，用于保护程序与数据的机密性和完整性不被外部窃取和破坏。与存储加密和网络通信加密一起，TEE 可

39、以保护落盘和通信过程中的数据隐私和安全。随着 TEE 技术的发展，在计算核心与内存之间增加安全处理器，以保护被计算核心使用的数据安全和隐私的机密计算技术出现。19（二）（二）数据层面，安全检测及处理助力大模型可靠数据层面，安全检测及处理助力大模型可靠数据的使用贯穿大模型全生命周期，安全保障与有效处理是保障大模型可靠的关键举措。在数据层面，可信赖实践主要涉及数据全流程的安全合规处理、数据安全沙箱技术、投毒检测以及数据分析等措施。1.安全合规的数据处理机制降低数据处理风险大模型的数据处理活动主要包含数据采集、数据预处理及模型训练等环节。在数据采集环节，通常会建立数据采集来源管理、数据采集业务评估、

40、数据采集审批流程、采集合规审批等管理机制，确保数据采集的合规性、正当性和执行上的一致性。针对数据来源问题，知识产权部门和信息安全部门协助业务部门对数据来源信息的合理性、正当性进行审查，去除含有大量不良违法信息的有害数据来源，并对数据来源信息进行备案管理。在数据预处理环节，数据处理人员会将收集到的原始数据进行清洗、去重、格式化等多步骤的预处理以确保数据质量。在该过程中，数据处理人员会严格筛查，去除那些不完整、错误、带毒或含有敏感信息的数据。随后数据处理人员通过自动化工具和人工相结合的方式，对预处理后的数据进行标注和筛选，以识别训练数据中是否包含敏感信息。此外，业务部门通过构建敏感内容反馈机制，利

41、用生成内容自身特性，将敏感内容作为负面样本训练敏感信息鉴别模型，持续提升模型性能。20在大模型训练阶段，通常会首先进行个人信息安全影响评估，确保大模型的研发和运营过程满足现有个人信息保护的合规要求。通过核对个人信息保护评估清单，推动面向个人信息保护的产品功能设计，确保人工智能产品设计流程合规，保障数据收集和处理（包括使用、披露、保留、传输和处置）限于所确定的必须的目的。2.数据安全沙箱技术实现数据可用不可见数据安全沙箱是一项通过构建可隔离、可调试、运行环境安全等功能来分离数据、模型使用权和所有权的技术。在大模型微调场景中，数据拥有方可通过沙箱客户端将数据通过加密信道上传到沙箱中，随后通过数据安

42、全沙箱对加密数据进行预处理和模型微调，并通过安全信道反馈微调后的模型，保证了模型拥有方的预训练模型不出私有域的前提下，数据拥有方可以安全的完成模型微调任务。图 6 数据安全沙箱技术3.投毒检测与数据分析识别有害内容在数据投毒检测方面，通过数据去毒工具在数据预处理环节检测训练数据是否存在异常。数据投毒检测可采用多种不同的检测手段。基于规则、关键词进行检测是一种常见但有效的方式，可在丰富完善检测规则的基础上，以较高的效率将被投毒的、危害安全的21训练数据进行截获去除。也可采用传统语言模型或大语言模型的手段，针对数据投毒问题进行相应的设计和优化，通过语义相似度等指标进行检测，从而判定出更隐蔽、更难以

43、察觉的数据安全问题。在数据分析工具方面，可采用分类统计、向量聚类、大模型识别等方法，对数据内容门类、语料形式、语料来源、作者等数据分布进行统计和分析，使参与到模型预训练中的训练数据配比均匀、优质来源和优质形式的数据占比较高，修正性别、民族、宗教、教育等统计偏见，使模型在运营阶段避免可能存在的安全性、公平性等问题。（三）（三）模型层面，全流程防控增强大模型可信模型层面，全流程防控增强大模型可信在模型层面，可信赖实践可从设计开发、模型训练和部署运行三个阶段展开。设计开发阶段主要涉及大模型研发前期的安全和伦理设计评估；在模型训练阶段，主要涉及大模型预训练、微调过程的可信赖能力检测、加固措施；在部署运

44、行阶段，主要涉及大模型在运营过程中的运维能力，以增强用户对于模型运营的信任度。1.安全和伦理设计评估为大模型研发提供全方位保障大模型的安全性设计评估是面向大模型设计初期的一项安全性评审工作，主要涉及安全审核和安全功能设计两方面。在安全审核方面，通常会根据大模型设计需求构建威胁模型，并生成安全设计核查表对大模型安全性设计进行评审，保障大模型的设计需求满足安全合规要求。在安全功能设计方面，大模型研发人员会根据安全22审核结果，对大模型进行安全功能设计，包括但不限于生成内容过滤机制、生成内容标识、投诉反馈功能等。大模型的伦理设计评估主要依据人工智能伦理治理相关法律法规和标准文件，面向数据、算法以及应

45、用管理风险三方面，围绕产品设计、开发、部署、运营的全生命周期，分阶段、分目标的对大模型伦理风险进行分类分级管理，并根据风险的等级进行内部自评估以及外部专家评审，以确保大模型的训练数据、决策机制以及生成内容符合伦理道德。目前，针对大模型伦理评估工作，商汤建立了覆盖产品全生命周期的风险控制机制，初步形成了大模型的伦理治理闭环。通过建立数据风险、算法风险以及应用风险三方面的伦理评估机制，对产品设计、开发、部署、运营的全生命周期实施分阶段、分目标的伦理风险分类分级管理，并建立了配套的风险自查、评估、审查和跟踪审查流程。图 7 商汤伦理风险分类分级管理评估2.评测与对齐是模型训练可信赖的关键技术措施23

46、大模型的模型评测和对齐技术是目前解决模型安全性、健壮性、公平性不足的主流方法，通过将评测结果作为奖励模型的反馈优化数据，对模型进行针对性的微调与对齐，大模型能够在模型层面更可靠、可信。大模型可信赖评测是提升模型抵抗外部恶意攻击、干扰信息以及决策偏见的重要手段。大模型可信赖的重点评测对象是安全性、健壮性以及公平性。在安全性测试方面，评测人员通常采用对抗性提示的方式对大模型进行目标劫持、提示泄露以及越狱等安全性评测。在健壮性测试方面，评测人员通常会采用错别字、同义替换、无关提示、修改语义等方式，对生成内容的一致性、稳定性进行评测。在公平性测试方面，评测人员会根据模型业务特性，针对年龄、国家、性别、

47、种族等敏感属性进行公平性评测，通过比对输入内容中是否含有敏感属性的输出结果差异，统计模型的公平性表现。在评测完成后，评测人员会协同研发人员共同构建面向安全性、健壮性和公平性的模型加固方案，包括但不限于增量学习、设计针对性的微调提示问答对、增强奖励模型的针对性训练等。思维链技术有效提升模型逻辑表达能力。为保障大模型的生成内容具备更加合理的推理性逻辑表达，微调阶段的标注人员可通过思维链技术，在同一提示词中引入多项解释性示例，引导模型生成具备一定推理逻辑的回答。比如，在数理逻辑任务中，可在示例部分编写步骤分解形式的解释说明内容，指导模型更容易生成推理步骤清晰，准确性高的回答内容。24图 8 思维链技

48、术人类反馈强化学习（RLHF）是现阶段大模型对齐研究的主要方法。RLHF 是一项通过人工反馈回答内容的好坏顺序指引大模型的价值观与人类对齐的技术。目前，包括 OpenAI、谷歌、百度、商汤科技等主流大模型均采用了 RLHF技术对大模型进行价值对齐调优。比如，商汤科技已经将模型评估测试与 RLHF 技术结合，将相关测试结果反馈于模型强化学习的过程之中，帮助进一步提升大模型风险防御能力。3.投诉反馈、风险监控以及应急处置构建模型运营能力投诉反馈机制是针对大模型生成内容优化更新的重要手段。目前投诉反馈机制主要是通过成立投诉反馈监管治理机构，对所有的不良违法生成内容进行处理。为了更好的推动模型的持续优

49、化，模型更新的研发人员会定期对生成内容的投诉和举报进行分析和总结，以便发现问题的根源，并采取措施防止类似问题再次发生。风险监控有效助力大模型良性运营。在模型运营能力建设方面，运营人员会持续对大模型的运营情况进行风险监控并对有害内容进25行溯源，通过对大模型记录的用户上传内容、用户上传时间、IP 地址、设备信息等信息进行核查，可实现对该内容的制作者和使用者进行追溯。应急处置用户恶意行为抑制有害内容生成与传播。大模型运营期间运营人员会对用户异常行为、违规用户帐号进行监控处置。针对用户异常行为，运营人员通过对用户行为进行分析，根据异常活跃度、登录情况以及输入内容进行判断处置。针对违规用户帐号，运营人

50、员通过帐号管理功能实现对恶意用户的限期改正、暂停使用、终止帐号等措施，防止有害内容的进一步生成和二次传播。（四）（四）生成内容层面，过滤与标识实现内容可控可问责生成内容层面，过滤与标识实现内容可控可问责在生成内容方面，可信赖实践主要涉及生成内容评测、内容审核机制以及内容可追溯能力的建设，实现内容安全可控并具备一定程度的可追溯能力。为缓解大模型“幻觉”现象，生成内容评测主要聚焦真实性、准确性以及安全性。为降低生成内容的安全性风险，内容审核机制通常会采取机器审核和人工复审结合的形式。为进一步提升二次编辑导致生成内容难以追溯的问题，数字水印技术正在逐渐提升健壮性能力。1.生成内容评测为模型优化更新提

下载提示：咨信网仅提供存储空间/不修改/不编辑

【自信AI创作助手】【自信AI导航】
1、请仔细预览页面，基本判断完整性，对于直接下载带来的问题请及时与客服沟通；下载的文档，不会出现我们的网址水印。
2、该文档所得收入（下载+内容+预览）归上传者、原创作者；如果您是本文档原作者，请点此认领！既往收益都归您。

同意并开始全文预览

举报此文档有问题？有机会获“体验VIP”奖励！

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

25 金币 0人已下载

申诉本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请申请举报、认领或删除 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 2023 模型可信赖研究报告

咨信网温馨提示：
1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前自行私信或留言给上传者【Stan****Shan】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时私信或留言给本站上传会员【Stan****Shan】，需本站解决可联系【微信客服】、【 QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”（推荐），意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：4008-655-100；投诉/维权电话：4009-655-100。