分销赏收藏举报申诉 / 30

立即下载开通VIP

当前位置：首页 > 研究报告 > 其他 > 大模型安全研究报告（2024年）.pdf

大模型安全研究报告（2024年）.pdf

上传人：宇***

文档编号：4662141

上传时间：2024-10-08

格式：PDF

页数：30

大小：4.81MB

《大模型安全研究报告（2024年）.pdf》由会员分享，可在线阅读，更多相关《大模型安全研究报告（2024年）.pdf（30页珍藏版）》请在咨信网上搜索。

1、FOUNDATION MODEL SAFETY RESEARCH REPORT54大模型安全研究报告当前，由 ChatGPT 引发的全球大模型技术竞赛正推动人工智能由专用弱智能向通用强智能迈进，这不仅标志着智能水平的显著提升，也预示着人机交互方式和应用研发模式的重大变革。大模型在各行各业的广泛应用，为第四次工业革命的爆发提供了蓬勃动力和创新潜力。然而，随着大模型商业化应用和产业化落地加速，大模型技术局限和恶意使用不仅加剧了原有人工智能安全风险，也引入了模型“幻觉”、指令注入攻击、网络攻击平民化等新型风险。面对这些挑战，国际组织和世界主要国家正通过制定治理原则、完善法律法规、研制技术标准等方式，

2、积极开展大模型安全治理。同时，大模型在逻辑推理、任务编排等方面的卓越能力，为解决网络空间安全瓶颈问题带来了新的机遇。为有效防范和消减大模型的安全风险，并促进其在安全领域的应用，阿里云计算有限公司联合中国信息通信研究院等三十余家行业单位共同编制大模型安全研究报告（2024 年）。本报告凝聚业界专家共识，聚焦当前大模型突出安全风险和网络空间安全瓶颈问题，从大模型自身安全和大模型赋能安全两个维度，提出涵盖安全目标、安全属性、保护对象、安全措施四个方面的大模型自身安全框架，以及大模型赋能安全框架。期待这些框架能为社会各方提供有益参考，共同推动大模型技术产业的健康发展。前言FORWORDFOUNDAT

3、ION MODEL SAFETY RESEARCH REPORT76大模型安全研究报告目录一大模型安全概述1.大模型技术演进121.1 探索期：预训练语言模型（2017 年-2021 年）121.2 爆发期：语言大模型（2022 年-2023 年）121.3 提升期：多模态大模型（2024-至今）122.大模型面临严峻安全挑战132.1 训练数据安全风险132.2 算法模型安全风险142.3 系统平台安全风险152.4 业务应用安全风险153.大模型带来新安全机遇164.大模型安全研究范围174.1 大模型自身安全174.2 大模型赋能安全17目录二大模型自身安全1.大模型自身安全框架201.

4、1 安全目标221.2 安全属性221.3 保护对象231.4 安全措施242.训练数据安全保护措施252.1 数据合规获取252.2 数据标注安全252.3 数据集安全检测262.4数据增广与数据合成272.5 安全对齐数据集构建273.算法模型安全保护措施283.1 模型内生安全评测283.2 模型鲁棒性增强293.3 模型“幻觉”缓解293.4 模型偏见缓解313.5 模型可解释性提升314.系统平台安全措施324.1 系统安全加固保护324.2 大模型插件安全保护335.业务应用安全措施345.1 输入输出安全保护345.2 生成信息标识355.3 账号恶意行为风控365.4 用户协议

5、和隐私政策37FOUNDATION MODEL SAFETY RESEARCH REPORT98大模型安全研究报告三大模型赋能安全1.大模型赋能安全框架402.大模型赋能网络安全422.1 风险识别(Identify)422.2 安全防御(Protect)442.3 安全检测(Detect)452.4 安全响应(Response)472.5 安全恢复(Recovery)482.6 其他493.大模型赋能数据安全503.1 自动化数据分类分级503.2 自动化 APP（SDK）违规处理个人信息检测514.大模型赋能内容安全524.1 智能文本内容安全检测52四大模型安全展望1.大模型技术产业展望

6、562.大模型自身安全展望563.大模型赋能安全展望57编制说明4.2 能图像视频内容安全检测524.3 智能音频内容安全检测53FOUNDATION MODEL SAFETY RESEARCH REPORT1110大模型安全研究报告一.大模型安全概述01大模型安全概述1.大模型技术演进2.大模型面临严峻安全挑战3.大模型带来新安全机遇4.大模型安全研究范围1FOUNDATION MODEL SAFETY RESEARCH REPORT1312大模型安全研究报告2012 年，杰弗里辛顿（Geoffrey Hinton）课题组提出的卷积深度神经网络 AlexNet 在计算机视觉权威比赛Image

7、Net 中以压倒性优势获得第一名，拉开了全球深度神经网络研究浪潮。2020 年，OpenAI 推出了 GPT-3，标志着以“标注数据监督学习”和服务特定任务为特点的小规模深度神经网络（即小模型），正式向以“大规模数据集无监督预训练+有监督微调”和服务多任务的大规模预训练深度神经网络（即大模型）转变。大模型以其庞大的无标注训练数据、巨大的模型参数、智能“涌现”现象和多任务处理能力，被业界认为是实现通用智能的可行路径。整体看，从小模型向大模型的演进经历了如下三个时期。1.1 探索期：预训练语言模型（2017 年-2021 年）2017 年，谷歌提出了基于自注意力机制的深度神经网络结构Transfo

8、rmer，奠定了此后大模型发展的算法架构基础。2018 年，基于 Transformer 的 GPT-1 和 BERT 的成功应用，标志着预训练模型成为自然语言处理领域的主流。2020 年，OpenAI 推出了模型参数规模高达 1750 亿的 GPT-3，因其在多类语言任务上的性能大幅提升获得了广泛关注和认可。这个阶段，预训练语言模型在多任务领域内生成语义连贯的类人文本方面展现出了极强潜力，全球为不断提高大模型性能不遗余力扩大模型的参数规模。1.2 爆发期：语言大模型（2022 年-2023 年）2022 年末，OpenAI 发布的 ChatGPT 引爆了全球大模型技术竞赛。此后，谷歌的 Pa

9、LM、Meta 的 LLaMA、Anthropic 的 Claude、阿联酋技术创新研究所的 Falcon 和 NOOR、阿里云的通义千问、百度的文心一言等语言大模型争相发布，全球呈现“千模大战”态势。这个阶段，大模型拥有了对自然语言的理解、生成、记忆和推理能力，实现了与人类的顺畅交流。与此同时，全球开始对大模型的经济性和安全性给予更多关注，研究焦点正从单纯扩大模型参数规模和提升模型智能水平，转向追求模型参数效率和确保模型与人类价值观的一致性。1.3 提升期：多模态大模型（2024-至今）2024 年，OpenAI 发布的 Sora 和 GPT-4o 凭借强大的视频语义理解和高质量的文生视频能

10、力震惊全球，开启了全球多模态大模型研发和应用热潮。谷歌的 Gemini Ultra、阿里云的 Qwen-VL Max、百度的 Ernie-ViLG 3.0、1.大模型技术演进2.大模型面临严峻安全挑战随着各类大模型与经济社会的深度融合，其技术局限和潜在恶意使用不仅威胁大模型系统自身的安全稳定运行，也可能为使用大模型的各行各业带来非预期安全影响。为尽可能全面应对大模型领域的基础共性安全挑战，本报告优先对语言、多模态等各类基础大模型系统的安全风险进行系统梳理。与此同时，参考 ISO/IEC 5338-2023 人工智能系统生命周期过程国际标准，将基础大模型系统抽象为训练数据、算法模型、系统平台和业

11、务应用四个重要组成部分，并通过描绘这四个组成部分面临的重要和一般安全风险，形成大模型安全风险地图，如图 1 所示。其中，重要风险是发生概率高和影响程度大的风险，一般风险则反之。2.1 训练数据安全风险在训练数据部分可能存在训练数据泄露等一般风险，其重点风险包括：（1）训练数据违规获取：通过不正当手段或未经授权的方式获取训练数据，可能违反法律法规、数据质量受损和发生安全事故。（2）训练数据含有违法不良信息：训练数据中可能包含违法不良、涉及商业机密或个人隐私等信息。（3）训练数据投毒：攻击者可能在训练数据中植入恶意样本或对数据进行恶意修改，影响模型的准确性和安全性。（4）训练数据质量低下：训练数据

12、集中可能存在错误或噪声数据，影响模型训练的效果。华为云的 MindSpore 等多模态大模型快速涌现，进一步推动了这一领域发展。区别于语言大模型，多模态大模型能同时处理来自语言、图像、声音等不同感知通道的信息，极大提高了场景理解准确度，促使大模型初步拥有了类似人类的感知和理解物理世界的能力。此外，得益于大模型强大的泛化、自适应和持续学习能力，研究人员在语言、多模态等基础大模型之上，通过使用行业专有数据进行微调，形成适用于金融、医疗、交通等特定行业和任务场景的定制化大模型。基础大模型的智能和安全水平，是影响面向特定行业和任务场景的定制化大模型性能表现的关键因素。FOUNDATION MODEL

13、SAFETY RESEARCH REPORT1514大模型安全研究报告（5）训练数据缺乏多样性：数据来源、特征和分布可能过于单一，不能全面覆盖各种实际应用场景。2.2 算法模型安全风险在算法模型部分可能存在测试验证不充分等一般风险，其重点风险包括：（1）模型鲁棒性不足：主要体现在分布外鲁棒性不足和对抗鲁棒性不足两个方面。分布外鲁棒性不足主要指模型在遭遇实际运行环境中的小概率异常场景时，未能展现出预期的泛化能力，从而生成非预期的结果。而对抗鲁棒性不足则主要指模型面对攻击者利用精心设计的提示词或通过添加细微干扰来构造对抗样本输入时，模型可能无法准确识别，影响输出的准确性。（2）模型“幻觉”现象：模

14、型在回答用户问题时，可能产生看似合理但包含不准确、虚构或违背事实的信息，这种现象被称为模型“幻觉”。（3）模型偏见和歧视：模型在处理数据时可能表现出某种偏好或倾向，这可能导致不公平的判断或生成带有歧视性的信息。（4）模型可解释性差：模型的决策过程和结果难以被详细准确地解释，使得用户难以理解模型输入如何影响输出，以及模型产生特定结果的原因。2.3 系统平台安全风险在系统平台部分可能遭受非授权访问和非授权使用等一般风险，其重点风险包括：（1）机器学习框架安全隐患：流行的机器学习框架（如 TensorFlow、Caffe、Torch）可能存在漏洞，攻击者可能利用这些漏洞发起攻击，造成系统受损、数据泄

15、露或服务中断。（2）开发工具链安全风险：大模型系统开发过程中使用的工具链（如 Langchain、Llama-Index、pandas-ai）可能存在安全漏洞，例如 SQL 注入、代码执行或命令注入等，攻击者利用这些漏洞可能导致数据损坏、信息泄露或服务中断。（3）系统逻辑缺陷风险：大模型系统可能存在数据权限和隔离、访问控制、业务逻辑等方面的缺陷，这些缺陷可能使得系统容易受到未授权访问、API 滥用、数据窃取或滥用、越权访问等攻击，进而可能导致法律纠纷和监管处罚。（4）插件相关安全风险：大模型的插件可能存在缺陷，在与大模型服务交互时可能引发敏感信息泄露、提示词注入、跨插件请求伪造等安全问题，这可

16、能导致系统遭受攻击、数据泄露或服务中断。2.4 业务应用安全风险在业务应用部分可能存在测试验证数据更新不及时等一般风险。其重点风险包括：（1）生成违法不良信息：大模型可能产生包含对国家安全、公共安全、伦理道德和行业规范构成威胁的内容。（2）数据泄露问题：存在攻击者通过逆向工程、成员推理攻击或提示词注入等手段窃取训练数据的风险，这些数据可能包含敏感的个人信息或商业机密，可能导致隐私泄露、知识产权侵权和经济损失。此外，用户在与大模型互动时，也可能由于疏忽或不熟悉相关风险，无意中泄露自己的隐私或保密信息。FOUNDATION MODEL SAFETY RESEARCH REPORT1716大模型安全

17、研究报告（3）用户恶意使用风险：在大模型应用中，存在一些用户或实体不遵守道德规范和法律法规，使用模型进行恶意活动的风险。总体来说，大模型在人工智能的发展中引入了模型“幻觉”、提示注入攻击、大模型插件缺陷等新风险，并加剧了数据泄露、模型偏见、系统缺陷等传统人工智能技术已有风险。3.大模型带来新安全机遇当前网络空间安全面临攻击隐蔽难发现、数据泄露风险高和违法信息审核难等挑战。大模型展现出强大的信息理解、知识抽取、意图和任务编排等能力，为网络空间安全瓶颈问题提供了新的解决思路和方法。与此同时，大模型发展也催生了恶意软件自动生成、深度伪造等新型攻击方式，已有安全措施无法有效检测和防御，亟待利用大模型技

18、术创新保护机制抵御新型威胁。大模型可显著提升网络威胁识别防御响应的精准度和时效性。在威胁识别阶段，大模型通过整合威胁情报、挖掘零日漏洞、执行代码审计和网络攻击溯源，可有效识别系统业务风险，提供针对性防御措施。在安全防御阶段，大模型通过对安全策略进行动态推荐与调整，强化安全防御效果。在安全检测阶段，大模型通过告警分析、报文检测、钓鱼邮件识别和未知威胁检测，深度识别攻击意图，研判攻击样本，提升攻击识别准确度。在安全响应阶段，大模型针对实际攻击行为提供自动化响应策略与处置流程，并撰写事件分析报告。在安全恢复阶段，基于运营目标执行全面的模拟演练，为安全恢复提供最佳实践指导。大模型能有效提升数据安全技术

19、的普适性和易用性。大模型通过深度学习和自然语言处理技术，能够理解和分析复杂的非结构化数据，自动识别并提取关键特征。这种智能分析能力极大地降低了对人工分析的依赖，使得数据分类分级等数据安全技术更加易于普及。同时，大模型的自学习能力意味着它可以不断从新的数据安全标准及样例集中学习并优化其安全策略，无需频繁的人工干预。这不仅提高数据安全的适应度和响应速度，也提高了数据安全技术的易用性。大模型能有效提升内容安全技术的鲁棒性和准确性。与传统的内容安全技术相比，大模型在多模态数据处理上具有显著优势，正在成为提升内容安全技术鲁棒性和准确性的关键。大模型的鲁棒性体现在其对不同格式、风格和质量的内容均能保持稳定

20、的检测性能，即使面对攻击者采用隐喻、漫画等形式刻意规避检测手段，也能保持较高的识别率。大模型的自学习能力，使其能够不断从新数据中学习，适应不断变化的虚假信息、深度伪造（Deepfake）等网络威胁，从而提高检测的准确性。大模型安全由大模型自身安全及大模型赋能安全两个核心要素构成。前者包含大模型安全目标、安全属性，保护对象及安全措施四个方面，后者则为发挥大模型对网络空间安全的赋能作用提供技术方向指引。4.1 大模型自身安全大模型自身安全是指在训练数据、算法模型、系统平台、业务应用这四个重要层面执行安全措施，以确保模型的安全、可靠、可控，并保障其伦理性、合规性、可靠性、可控性、鲁棒性等安全属性。同

21、时，对大模型的系统、数据、用户、行为四个对象进行严格保护，确保大模型系统提供服务时的安全性。4.2 大模型赋能安全大模型赋能安全是指在网络安全、内容安全、数据安全等领域，利用大模型的信息处理、知识抽取、意图识别等能力，增强网络安全防御能力、数据安全保护能力、内容安全检测过滤能力，提高安全事件处理的效率和准确性，提升安全技术的智能化水平，促使安全防护更加主动、智能和高效。4.大模型安全研究范围FOUNDATION MODEL SAFETY RESEARCH REPORT1918大模型安全研究报告二.大模型自身安全大模型自身安全1.大模型自身安全框架2.训练数据安全措施3.算法模型安全措施.4.系

22、统平台安全措施2FOUNDATION MODEL SAFETY RESEARCH REPORT2120大模型安全研究报告1.大模型自身安全框架FOUNDATION MODEL SAFETY RESEARCH REPORT2322大模型安全研究报告本报告从消减大模型面临的基础共性安全风险出发，构建如图 3 所示大模型自身安全框架。大模型自身安全框架涵盖安全目标、安全属性、保护对象、安全措施四个层面，这四个层面基于自顶向下、层层递进的方式提出了构建大模型自身安全的整体解决方法。1.1 安全目标目前，欧盟、美国、中国等世界主要地区和国家以及微软、谷歌等科技企业均提出大模型伦理准则。本安全框架在充分借

23、鉴国内外大模型伦理准则要求的基础上，在我国战略层面提出的“确保大模型安全、可靠、可控”总体目标基础上，基于大模型面临的安全风险和挑战，根据大模型应用的实际需要，提出以下四个方面安全目标。训练数据安全可信：训练数据是大模型的基石，大模型从训练数据中汲取知识的同时，也面临着数据泄露、数据偏见、数据投毒等诸多安全隐患。因而，应确保大模型的训练数据不被窃取，不会泄露用户隐私，且未被篡改，能够真实反映物理世界和人类社会情况。算法模型安全可靠：大模型技术正逐渐应用于智慧医疗、无人驾驶等安全关键性场景，大模型算法模型的鲁棒可靠愈加重要。然而，大模型存在的鲁棒性不足、模型“幻觉”、可解释性差等自身技术局限，以

24、及指令注入、对抗样本、算法后门等新型安全攻击方式，都可能使大模型应用产生非预期的错误输出。因而，应当确保大模型的算法模型在规定的运行条件和时间周期内始终产生预期的行为和结果，且一直处于可控状态。系统平台安全稳定：构建大模型系统是各行各业使用大模型技术解决实际问题的主要方式，同时，大模型研发平台承担着为设计研发人员提供高效、便捷的研发环境的重要作用。然而，大模型系统和研发平台自身安全漏洞被攻击者利用也将带来应用系统被控制、敏感数据泄露、智能服务中断等严重安全问题。因而，应及时检测发现并修复大模型系统和研发平台的安全漏洞，做好大模型与插件间交互的安全监测与认证。业务应用安全可控：大模型已在交通、医

25、疗等领域展现出了强大的能力。滥用或恶意使用大模型应用将会给物理世界和国家社会带来巨大的负面影响。因此，首先应确保大模型系统应用目标符合国家法律法规和社会伦理的规范要求。1.2 安全属性参考 ISO/IEC 22989:2022信息技术人工智能人工智能概念和术语国际标准、GB/T 41867-2022信息技术人工智能术语国家标准等标准文件，将大模型安全属性概括如下：真实性：训练数据能真实反映物理世界客观规律和人类社会实际运转情况的性质。多样性：训练数据应覆盖尽可能多的样本，以确保大模型能对不同情况进行泛化的性质。准确性：针对所规定的各项安全要求,大模型展现其正确实现这些要求的性质。机密性：

26、确保大模型的参数、架构和训练过程的信息对未授权的个人、实体或过程不可用或不泄露的性质。可问责性：大模型及其利益相关方对其行动、决定和行为负责任的状态。可预测性：大模型满足利益相关方所提出输出做出可靠假设的性质。公平性：尊重既定事实、社会规范和信仰，大模型产生的行为或结果不受偏袒或不公正歧视影响的性质。透明性：大模型系统与利益相关方交流关于该系统适当信息的性质。可解释性：大模型系统以人能理解的方式，表达影响其执行结果的重要因素的能力。合规性：用户对大模型系统的应用方式以及大模型系统自身行为和输出信息满足法律法规和规章要求的性质。可靠性：大模型实施一致的期望行为并获得结果的性质。可控性：大模型被人

27、类或其他外部主体干预的性质。鲁棒性：大模型在任何情况下都保持其性能水平的性质。1.3 保护对象保护对象包括系统、数据、用户、行为。系统：系统即大模型系统，一般由服务器、传感器等硬件，数据库、操作系统等基础软件，基于大模型的算法模型，以及支持大模型研发运营的框架平台等主要组件组成。数据：数据是大模型系统的核心。从大模型系统生命周期视角来看，主要包括训练数据、测试数据和运行时输入数据三类。从类型来看，主要包括文本、图像、视频、音频以及来自于数据库的结构化数据等。用户：用户指使用大模型系统的组织或实体，可以是自然人和法人，也可以是账户、软件、网络设备等具有唯FOUNDATION MODEL SAFE

28、TY RESEARCH REPORT2524大模型安全研究报告一性身份的与大模型系统进行交互的信息收发源。行为：行为指用户与大模型系统的交互过程，这不仅包括用户对大模型的日常操作，还包括大模型系统与其他系统间的调用操作。1.4 安全措施在国家法律法规、各行业监管政策以及社会伦理规则指引下，从训练数据、算法模型、系统平台、业务应用等层面提出相应的安全保护措施。训练数据安全措施：训练数据安全措施指对大模型训练数据部署的安全防御能力。训练数据安全措施主要包括数据合规获取、数据标注安全、数据集安全检测、数据增广与数据合成、安全对齐数据集构建五个方面。算法模型安全措施：算法模型安全措施指针对大模型算法模

29、型部署的安全防御能力。算法模型安全措施主要包括模型内生安全评测、模型鲁棒性增强、模型“幻觉”缓解、模型偏见缓解、模型可解释性提升等五个方面。系统平台安全措施：系统平台安全措施指针对大模型框架平台部署的安全防御能力。系统平台安全措施主要包括系统安全加固保护、大模型插件安全保护两个方面。业务应用安全措施：业务应用安全措施指在大模型业务层部署的安全防御能力。业务应用安全措施主要包括输入输出安全保护、生成信息标识、账号恶意行为风控、用户协议和隐私政策四个方面。2.训练数据安全保护措施2.1 数据合规获取数据获取渠道主要包括从互联网或用户处直接获取数据、通过交易或合作方式获取数据、通过自研业务收集或生成

30、数据三种。针对三种渠道，安全保护要点如下。直接获取方式的安全措施。直接获取数据包括直接获取互联网公开数据和用户输入数据两类。为保护直接从互联网公开获取的数据，需在采集时遵循三点原则：一是爬虫仅获取开放数据，技术非侵入性，且基于正当目的；二是需建立违法不良数据源清单，标识含有威胁的数据源；三是标记溯源数据来源，记录数据的来源、获取时间、获取记录，同时需标记、识别、记录数据中的违法不良信息。为保护直接从用户输入获取的数据，需在采集前明确告知用户此次数据收集的目的、使用方式以及存储期限，获得用户同意。交易或合作方式的安全措施。通过数据交易或合作方式获取数据的，需签署商业合同或合作协议。自研业务方式的

31、安全措施。通过自研业务获取的数据包括企业在自身经营活动中产生的数据和在为客户服务过程中产生的数据。针对此种方式，应区分并根据数据权利归属，严格按照约定的数据使用用途、范围和目的进行处理。除上述保护要点，数据合规获取还需对相关人员进行定期培训，帮助涉及训练数据获取的人员了解相关法律法规要求，明确合规标准与违规风险，提升合规意识和自觉性。2.2 数据标注安全数据标注安全包括标注任务制定、标注人员管理及培训、标注执行过程安全以及标注结果的检查与纠错四个方面。制定清晰的标注任务。首先，标注任务要充分考虑实际要求；其次，提供明确的标注任务目标、标注规则、标注要求等；最后，还需在标注规则中提供参考示例，以

32、帮助标注人员更好地执行任务。对标注人员进行管理及培训。需设置不同的标注人员角色，包括标注执行人员、标注审核人员、仲裁人员、监FOUNDATION MODEL SAFETY RESEARCH REPORT2726大模型安全研究报告督人员等。需根据标注任务对标注人员进行培训，并要求标注人员必须在通过考核后方可执行标注任务。标注执行过程安全。执行标注任务前，需检查标注工具是否存在安全漏洞并及时对漏洞进行修复，同时还需建立标注工具访问控制机制，实施身份验证和授权访问控制，确保只有授权人员才可使用标注工具。执行标注任务时，需提供安全的标注环境，并对标注数据的访问和操作进行权限管理和记录。标注结果的检查与

33、纠错。需对标注结果进行质量审查，可选择全量或抽样、人工或自动核验方式。对于发现的标注错误问题需及时纠正并再次复核，确保质量达标。2.3 数据集安全检测数据集安全检测包括违法不良数据检测、数据多样性检测、数据投毒污染检测以及数据隐私检测。违法不良数据检测。参照网络信息内容生态治理规定中规定的 11 类违法信息和 9 类不良信息，对文本、图像、视频、音频、代码等各类训练数据进行安全检测和过滤。文本类训练数据可采用关键词匹配、自然语言处理（NLP）、小模型和大模型语义识别检测等技术。多媒体类训练数据可采用图像识别、语音识别及小模型检测等技术。代码类训练数据检测可采用特征码扫描、行为分析和沙箱检测等技

34、术。数据多样性检测。对训练数据来源、特征、分布等维度的多样性进行检测。其中，来源多样性检测通过计算来自不同数据源的比例、计算数据来源的地域分布、内容分类等方法进行多样性检测；特征多样性检测通过对数据进行特征统计、特征相关性分析、特征重要性评估、聚类分析等方法进行多样性检测；分布多样性检测通过KDE 核密度估计、KL 散度、K-S 检验、聚类分析等方法进行多样性检测。数据投毒污染检测。数据污染投毒检测需对预训练和内部微调数据进行检测。检测算法通过比较投毒数据与正常数据在样本、特征和标签层面的差异，以及模型在两者上的训练过程和神经元响应差异，来进行区分。仅利用数据差异的检测可在黑盒条件下实施，而利

35、用模型性能差异的检测需获得算法模型内部信息及研发者的支持。数据隐私检测。数据隐私检测是指识别与检测数据中的敏感信息，常用技术包括数据标识符、正则表达式和关键词匹配等。数据标识符检测准确率高，而正则表达式和关键词匹配可能存在漏报和误报。结合上下文分析和库表字段注释，可提升检测准确率。2.4 数据增广与数据合成数据增广和数据合成可以扩充数据集规模，并增加数据样本的多样性，从而有效解决数据量不足，以及多样化不足带来的泛化能力弱等问题。数据增广是在保持原数据集不变的前提下，通过一系列的变换操作，生成新的数据集，且新生成的数据集一般与原数据集保持一定程度的关联，包括基础数据增广技术和高级数据增广技术。一

36、是基础数据增广技术。在计算机视觉领域，基础数据增广技术的应用尤为成熟，包括几何变换（如旋转、平移、缩放、裁剪）和像素变换（如噪声注入、颜色抖动）等常见技术。二是高级数据增广技术。随着技术的发展，基于网络架构搜索（NAS）的动态数据增广等新方法逐渐出现，并被应用于图像分类、目标检测、语音识别、自然语言处理（NLP）等任务中。在语音应用领域，通过添加噪声等手段进行数据增广也取得了良好效果。这些先进技术在提升数据多样性和模型性能方面展现出了巨大潜力，但同时也带来了更高的技术复杂度和计算成本。数据合成是在不使用原数据集的情况下生成数据。合成数据基于算法或模型生成，包括生成对抗网络（GAN）、变分自编码

37、器（VAE）、基于物理仿真、基于统计模型或者基于机器学习等方法。合成数据作为真实数据的一种替代，现阶段虽然在预训练占比不高，但未来发展潜力巨大，可作为一个“新物种”密切关注。在大模型预训练阶段，合成数据将在多模态和领域知识生成中发挥重要作用。合成数据的生成需要确保数据的真实性和有效性，以避免对模型的训练和测试产生负面影响。可行的应用方案是按照一定比例将合成数据与真实数据进行混合，用于模型性能优化，提升泛化能力。2.5 安全对齐数据集构建安全对齐数据集旨在降低大模型产生不真实、有偏见、不道德等风险，确保模型的输出符合人类规则和道德准则。安全对齐数据集包含有监督正样本、恶意样本及外部检索对齐数据。

38、一是有监督正样本数据构建。该数据集为人类标注的正样本，符合人类价值观，旨在模型微调时更好地学习和对齐。借助专家知识和经验标注数据，确保符合所定义的价值观。微调时以人类价值观为原则调整标注数据的排序方式，对有帮助性、无害性以及基于事实的优质问答打高分，指导奖励模型学习更符合人类价值观的策略，FOUNDATION MODEL SAFETY RESEARCH REPORT2928大模型安全研究报告从而发挥价值对齐技术的优势。二是恶意样本数据构建。该数据集包含各种经过标注的针对大模型的对抗性攻击提示词和违法不良信息样本，旨在帮助开发人员构建评测数据集，测试模型的内生安全性以及生成内容的安全性，了解模型

39、在面对异常样本、提示注入攻击、数据窃取攻击时的表现，有助于开发人员增强模型鲁棒性、缓解决策偏见等问题。三是外部检索对齐数据构建。在面向特定的问题时，用于检索要对齐的价值观并作出合适的回复的数据基准，适用于法律、法规、制度文件等比较定制化的价值维度，即为模型建立法律和道德标准，对回复进行约束。该方法可以有效提升检索生成增强的效果，进一步缓解模型幻觉现象。安全对齐数据集的构建需考虑数据多样性、攻击复杂性和安全评估科学性。同时，为保持有效性和实时性，需定期更新数据集以应对变化中的攻击手段。3.算法模型安全保护措施3.1 模型内生安全评测模型内生安全评测主要包括模型鲁棒性评测、模型“幻觉”评测和模型偏

40、见性评测。模型鲁棒性评测。该评测旨在全面客观定量评价模型在面对小概率异常场景、提示注入攻击场景以及恶意添加扰动的对抗样本输入时仍产生正确输出的概率。目前，大语言模型的鲁棒性测评较为成熟，多模态大模型的评测仍处于研究初期。针对大语言模型，分布外鲁棒性评测数据集主要包括 Flipkart、DDXPlus 等，对抗鲁棒性评测数据集主要包括 AdvGLUE、ANLI、PromptBench 等。鲁棒性评测指标主要包括模型预测的准确性、性能下降率等。模型“幻觉”评测。目前，模型“幻觉”评测基准主要集中在大语言模型，多模态模型的“幻觉”评测方法仍较为初级。大语言模型“幻觉”评测主要评估大语言模型生成内容与

41、输入信息或者事实知识的内容一致性及相关性程度，目前主要包括基于事实度量、基于分类器度量、基于问答系统度量、不确定性估计以及基于大模型的度量方法。主流的幻觉评测数据集包括 TruthfulQA、HalluQA、UHGEval 等。模型偏见性评测。该测评旨在全面客观定量评价大模型在训练阶段和推理阶段的偏见歧视程度。模型偏见性评测流程可分为偏见风险分析、评测任务选择、评测指标选择和数据集构建。主流的偏见性评测数据集包括WINOGENDER、BOLD等。通常，评测人员会统计生成内容中的关键属性和词语的概率，来反映模型的偏见程度。3.2 模型鲁棒性增强模型鲁棒性增强以对抗性训练为主，通过模拟提示注入攻击

42、场景和对抗样本，支撑算法模型从数据中学习到相关特征以提升算法鲁棒性。提示词安全增强，包括提示词语义增强和提示词结构增强。提示词语义增强的核心是在提示词中增加鲁棒性任务描述以及对模型进行提示注入攻击少样本学习。鲁棒性任务描述方法，通过在提示词中额外添加鲁棒性任务描述，用于提升模型对原有用户任务的执行度。例如，可在用户输入提示词中强调原有任务的执行力度并忽略任何非原任务意图的指令。少样本学习方法，通过在训练数据中增加多项添加了提示注入攻击指令的提示词和正确回复的示例，对模型进行专项训练，从而指导模型正确识别提示注入攻击。提示词结构增强的核心是提示词位置调整和特殊符号标记。提示词位置调整方法，是通过

43、更改原有用户输入信息和任务指令的位置，使攻击提示词部分失效，从而降低模型被提示注入攻击的概率。例如，可将原有任务指令置于用户输入信息之后，可以使大模型不执行“忽略下列指令”等诱导性指令。特殊符号标记方法，是通过特殊符号增强用户输入信息和任务指令的差异性，减少模型将诱导性用户输入信息误解为任务指令进行执行的情况，有效提升模型抵御指令注入攻击的能力。对抗性样本输入增强，可根据鲁棒性评测结果，针对性构建含有字符级、单词级、句子级以及语义级干扰信息的训练数据集，用于缓解含有干扰信息的提示词对模型鲁棒性的影响。3.3 模型“幻觉”缓解模型“幻觉”缓解主要包括检索增强生成、有监督微调、思维链技术以及价值对

44、齐技术。一是检索增强生成（Retrieval Augmented Generation,RAG）该技术是一种将检索器与生成式大模型相结合的技术。在大模型生成过程中，通过检索器从外部源或向量数据FOUNDATION MODEL SAFETY RESEARCH REPORT3130大模型安全研究报告库检索知识，并由大模型根据原始输入信息和检索器获得的知识合成所需的回答。目前检索增强生成主要包括一次性检索、迭代检索和事后检索。一次性检索通过将一次检索获得的外部知识直接添加到输入提示词中，可持续提高大模型生成信息的准确性。迭代检索是为了解决应对复杂问题时一次性检索能力限制问题，该方法允许在整个信息生成

45、过程中多次检索收集知识，可有效减少推理链中事实性错误。事后检索通过使用检索获得知识从而对大模型已生成的信息进行修正，可有效增强大模型生成信息的准确性。二是有监督微调（Supervised Fine-Tuning，SFT）有监督微调是一种通过微调数据集提升大模型理解和生成能力的技术。该技术的优点是可在现有模型知识水平基础上进一步提升模型的信息理解和生成能力。例如，针对多轮对话中上下文不一致的模型“幻觉”问题，使用含有多轮提示词及正确回复的微调数据对模型进行安全性微调，可有效提升模型在多轮对话后的注意力，增强上下文一致性。三是思维链技术（Chain-of-thought，CoT）该技术是一种可增强

46、大模型生成信息逻辑性的技术。通过向大模型展示少量包含详细推理过程的样例，帮助大模型在生成信息时不仅给出结果还提供推理过程。该方法在提升大模型推理过程透明度的同时，可显著提升生成信息的准确性。四是价值对齐技术（Value Alignment）该技术是一种确保大模型系统的目标和行为与人类的价值观和利益保持一致的技术和理念。目前，价值对齐主要包括基于人工反馈的强化学习、基于人工智能反馈的强化学习两类。基于人工反馈的强化学习（Reinforcement Learning from Human Feedback,RLHF）。RLHF 是一项通过人工反馈大模型生成信息好坏排序以指引大模型价值观与人类对齐的

47、强化学习技术。RLHF 适用于对已经微调的大模型进行改进，使其更加符合人类偏好。由于 RLHF 性能受人类标注的数据质量和时效性影响较大，且奖励模型存在通过学习欺骗式奖励策略实现“欺骗式”对齐的风险，因此需要进一步探索高可靠性价值对齐技术。基于人工智能反馈的强化学习（Reinforcement Learning from Artificial Intelligence Feedback，RLAIF）。RLAIF 是一种结合人工反馈和人工智能反馈的强化学习方法。在强化学习阶段，RLAIF 通过人工智能模型部分取代人类标注员对大模型生成信息好坏进行排序，并将其与人类标注员排序结果进行融合，共同用于

48、奖励模型的训练。目前该项技术尚处于研究初期，主要以 Anthropic、OpenAI 和 Google 等公司的实践为主。3.4 模型偏见缓解大模型的偏见缓解措施主要用于缓解训练阶段和推理阶段的偏见问题。训练阶段的模型偏见缓解措施。通过优化模型训练过程和模型结构对模型进行偏见缓解，包括构建偏见性样本进行对抗性训练、优化损失函数、选择性冻结部分模型参数、移除偏见歧视相关的神经网络节点等。推理阶段的模型偏见缓解措施。基于预训练模型或者微调后的模型，在不进行进一步微调的前提下控制偏见内容的输出，以提升预训练或微调模型的公平性，包括调整输入的关键词类别、分布以及模型权重等。3.5 模型可解释性提升针对

49、大模型的可解释性提升可分为局部可解释和全局可解释。局部可解释性方法。该方法主要包括特征属性分析和 Transformer 结构分析。特征属性分析旨在识别和评估哪些输入特征对模型生成信息造成影响及其影响程度，主要包括干扰分析法、梯度分析法、向量分析法等，目前实践以 SHAP 和 LIME 等方法为主。Transformer 结构分析旨在研究 Transformer 自注意力层和多层感知机层的机理，通过分析注意力权重了解模型如何对输入分配注意力，从而理解模型在文本生成中关注的输入信息的关键部分。例如，OpenAI 正在尝试使用 GPT-4 模拟解释 GPT-2 神经元与生成信息的映射关系。全局可解

50、释性方法。该方法主要包括基于探针的方法和机制可解释。基于探针的方法旨在分析和理解大模型生成信息的高层次表征，这些表征有助于从宏观角度理解大模型生成信息的行为，如研究人员采用神经元热力度的方法、观察模型输出信息是否真实等。机制可解释旨在通过类比复杂计算机程序的逆向工程思路探索神经元的提取特征与大模型生成信息的映射关系。例如，Anthropic 正在研究通过字典学习等方法分解神经元，尝试解释神经元提取的单一特征与生成信息之间的映射关系。FOUNDATION MODEL SAFETY RESEARCH REPORT3332大模型安全研究报告4.系统平台安全措施4.1 系统安全加固保护系统安全加固保护

下载提示：咨信网仅提供存储空间/不修改/不编辑

【自信AI创作助手】【自信AI导航】
1、请仔细预览页面，基本判断完整性，对于直接下载带来的问题请及时与客服沟通；下载的文档，不会出现我们的网址水印。
2、该文档所得收入（下载+内容+预览）归上传者、原创作者；如果您是本文档原作者，请点此认领！既往收益都归您。

同意并开始全文预览

举报此文档有问题？有机会获“金币”的奖励！

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

25 金币 0人已下载

申诉本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请申请举报、认领或删除 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 模型安全研究报告 2024

咨信网温馨提示：
1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前自行私信或留言给上传者【宇***】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时私信或留言给本站上传会员【宇***】，需本站解决可联系【微信客服】、【 QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”（推荐），意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：4008-655-100；投诉/维权电话：4009-655-100。