大模型安全研究报告(2024年).pdf
《大模型安全研究报告(2024年).pdf》由会员分享,可在线阅读,更多相关《大模型安全研究报告(2024年).pdf(30页珍藏版)》请在咨信网上搜索。
1、FOUNDATION MODEL SAFETY RESEARCH REPORT54大模型安全研究报告当前,由 ChatGPT 引发的全球大模型技术竞赛正推动人工智能由专用弱智能向通用强智能迈进,这不仅标志着智能水平的显著提升,也预示着人机交互方式和应用研发模式的重大变革。大模型在各行各业的广泛应用,为第四次工业革命的爆发提供了蓬勃动力和创新潜力。然而,随着大模型商业化应用和产业化落地加速,大模型技术局限和恶意使用不仅加剧了原有人工智能安全风险,也引入了模型“幻觉”、指令注入攻击、网络攻击平民化等新型风险。面对这些挑战,国际组织和世界主要国家正通过制定治理原则、完善法律法规、研制技术标准等方式,
2、积极开展大模型安全治理。同时,大模型在逻辑推理、任务编排等方面的卓越能力,为解决网络空间安全瓶颈问题带来了新的机遇。为有效防范和消减大模型的安全风险,并促进其在安全领域的应用,阿里云计算有限公司联合中国信息通信研究院等三十余家行业单位共同编制大模型安全研究报告(2024 年)。本报告凝聚业界专家共识,聚焦当前大模型突出安全风险和网络空间安全瓶颈问题,从大模型自身安全和大模型赋能安全两个维度,提出涵盖安全目标、安全属性、保护对象、安全措施四个方面的大模型自身安全框架,以及大模型赋能安全框架。期待这些框架能为社会各方提供有益参考,共同推动大模型技术产业的健康发展。前 言FORWORDFOUNDAT
3、ION MODEL SAFETY RESEARCH REPORT76大模型安全研究报告目录一大模型安全概述1.大模型技术演进121.1 探索期:预训练语言模型(2017 年-2021 年)121.2 爆发期:语言大模型(2022 年-2023 年)121.3 提升期:多模态大模型(2024-至今)122.大模型面临严峻安全挑战132.1 训练数据安全风险132.2 算法模型安全风险142.3 系统平台安全风险152.4 业务应用安全风险153.大模型带来新安全机遇164.大模型安全研究范围174.1 大模型自身安全174.2 大模型赋能安全17目录二大模型自身安全1.大模型自身安全框架201.
4、1 安全目标221.2 安全属性221.3 保护对象231.4 安全措施242.训练数据安全保护措施252.1 数据合规获取252.2 数据标注安全252.3 数据集安全检测262.4数据增广与数据合成272.5 安全对齐数据集构建273.算法模型安全保护措施283.1 模型内生安全评测283.2 模型鲁棒性增强293.3 模型“幻觉”缓解293.4 模型偏见缓解313.5 模型可解释性提升314.系统平台安全措施324.1 系统安全加固保护324.2 大模型插件安全保护335.业务应用安全措施345.1 输入输出安全保护345.2 生成信息标识355.3 账号恶意行为风控365.4 用户协议
5、和隐私政策37FOUNDATION MODEL SAFETY RESEARCH REPORT98大模型安全研究报告三大模型赋能安全1.大模型赋能安全框架402.大模型赋能网络安全422.1 风险识别(Identify)422.2 安全防御(Protect)442.3 安全检测(Detect)452.4 安全响应(Response)472.5 安全恢复(Recovery)482.6 其他493.大模型赋能数据安全503.1 自动化数据分类分级503.2 自动化 APP(SDK)违规处理个人信息检测514.大模型赋能内容安全524.1 智能文本内容安全检测52四大模型安全展望1.大模型技术产业展望
6、562.大模型自身安全展望563.大模型赋能安全展望57编制说明4.2 能图像视频内容安全检测524.3 智能音频内容安全检测53FOUNDATION MODEL SAFETY RESEARCH REPORT1110大模型安全研究报告一.大模型安全概述01大模型安全概述1.大模型技术演进2.大模型面临严峻安全挑战3.大模型带来新安全机遇4.大模型安全研究范围1FOUNDATION MODEL SAFETY RESEARCH REPORT1312大模型安全研究报告2012 年,杰弗里辛顿(Geoffrey Hinton)课题组提出的卷积深度神经网络 AlexNet 在计算机视觉权威比赛Image
7、Net 中以压倒性优势获得第一名,拉开了全球深度神经网络研究浪潮。2020 年,OpenAI 推出了 GPT-3,标志着以“标注数据监督学习”和服务特定任务为特点的小规模深度神经网络(即小模型),正式向以“大规模数据集无监督预训练+有监督微调”和服务多任务的大规模预训练深度神经网络(即大模型)转变。大模型以其庞大的无标注训练数据、巨大的模型参数、智能“涌现”现象和多任务处理能力,被业界认为是实现通用智能的可行路径。整体看,从小模型向大模型的演进经历了如下三个时期。1.1 探索期:预训练语言模型(2017 年-2021 年)2017 年,谷歌提出了基于自注意力机制的深度神经网络结构Transfo
8、rmer,奠定了此后大模型发展的算法架构基础。2018 年,基于 Transformer 的 GPT-1 和 BERT 的成功应用,标志着预训练模型成为自然语言处理领域的主流。2020 年,OpenAI 推出了模型参数规模高达 1750 亿的 GPT-3,因其在多类语言任务上的性能大幅提升获得了广泛关注和认可。这个阶段,预训练语言模型在多任务领域内生成语义连贯的类人文本方面展现出了极强潜力,全球为不断提高大模型性能不遗余力扩大模型的参数规模。1.2 爆发期:语言大模型(2022 年-2023 年)2022 年末,OpenAI 发布的 ChatGPT 引爆了全球大模型技术竞赛。此后,谷歌的 Pa
9、LM、Meta 的 LLaMA、Anthropic 的 Claude、阿联酋技术创新研究所的 Falcon 和 NOOR、阿里云的通义千问、百度的文心一言等语言大模型争相发布,全球呈现“千模大战”态势。这个阶段,大模型拥有了对自然语言的理解、生成、记忆和推理能力,实现了与人类的顺畅交流。与此同时,全球开始对大模型的经济性和安全性给予更多关注,研究焦点正从单纯扩大模型参数规模和提升模型智能水平,转向追求模型参数效率和确保模型与人类价值观的一致性。1.3 提升期:多模态大模型(2024-至今)2024 年,OpenAI 发布的 Sora 和 GPT-4o 凭借强大的视频语义理解和高质量的文生视频能
10、力震惊全球,开启了全球多模态大模型研发和应用热潮。谷歌的 Gemini Ultra、阿里云的 Qwen-VL Max、百度的 Ernie-ViLG 3.0、1.大模型技术演进2.大模型面临严峻安全挑战随着各类大模型与经济社会的深度融合,其技术局限和潜在恶意使用不仅威胁大模型系统自身的安全稳定运行,也可能为使用大模型的各行各业带来非预期安全影响。为尽可能全面应对大模型领域的基础共性安全挑战,本报告优先对语言、多模态等各类基础大模型系统的安全风险进行系统梳理。与此同时,参考 ISO/IEC 5338-2023 人工智能系统生命周期过程国际标准,将基础大模型系统抽象为训练数据、算法模型、系统平台和业
11、务应用四个重要组成部分,并通过描绘这四个组成部分面临的重要和一般安全风险,形成大模型安全风险地图,如图 1 所示。其中,重要风险是发生概率高和影响程度大的风险,一般风险则反之。2.1 训练数据安全风险在训练数据部分可能存在训练数据泄露等一般风险,其重点风险包括:(1)训练数据违规获取:通过不正当手段或未经授权的方式获取训练数据,可能违反法律法规、数据质量受损和发生安全事故。(2)训练数据含有违法不良信息:训练数据中可能包含违法不良、涉及商业机密或个人隐私等信息。(3)训练数据投毒:攻击者可能在训练数据中植入恶意样本或对数据进行恶意修改,影响模型的准确性和安全性。(4)训练数据质量低下:训练数据
12、集中可能存在错误或噪声数据,影响模型训练的效果。华为云的 MindSpore 等多模态大模型快速涌现,进一步推动了这一领域发展。区别于语言大模型,多模态大模型能同时处理来自语言、图像、声音等不同感知通道的信息,极大提高了场景理解准确度,促使大模型初步拥有了类似人类的感知和理解物理世界的能力。此外,得益于大模型强大的泛化、自适应和持续学习能力,研究人员在语言、多模态等基础大模型之上,通过使用行业专有数据进行微调,形成适用于金融、医疗、交通等特定行业和任务场景的定制化大模型。基础大模型的智能和安全水平,是影响面向特定行业和任务场景的定制化大模型性能表现的关键因素。FOUNDATION MODEL
13、SAFETY RESEARCH REPORT1514大模型安全研究报告(5)训练数据缺乏多样性:数据来源、特征和分布可能过于单一,不能全面覆盖各种实际应用场景。2.2 算法模型安全风险在算法模型部分可能存在测试验证不充分等一般风险,其重点风险包括:(1)模型鲁棒性不足:主要体现在分布外鲁棒性不足和对抗鲁棒性不足两个方面。分布外鲁棒性不足主要指模型在遭遇实际运行环境中的小概率异常场景时,未能展现出预期的泛化能力,从而生成非预期的结果。而对抗鲁棒性不足则主要指模型面对攻击者利用精心设计的提示词或通过添加细微干扰来构造对抗样本输入时,模型可能无法准确识别,影响输出的准确性。(2)模型“幻觉”现象:模
14、型在回答用户问题时,可能产生看似合理但包含不准确、虚构或违背事实的信息,这种现象被称为模型“幻觉”。(3)模型偏见和歧视:模型在处理数据时可能表现出某种偏好或倾向,这可能导致不公平的判断或生成带有歧视性的信息。(4)模型可解释性差:模型的决策过程和结果难以被详细准确地解释,使得用户难以理解模型输入如何影响输出,以及模型产生特定结果的原因。2.3 系统平台安全风险在系统平台部分可能遭受非授权访问和非授权使用等一般风险,其重点风险包括:(1)机器学习框架安全隐患:流行的机器学习框架(如 TensorFlow、Caffe、Torch)可能存在漏洞,攻击者可能利用这些漏洞发起攻击,造成系统受损、数据泄
15、露或服务中断。(2)开发工具链安全风险:大模型系统开发过程中使用的工具链(如 Langchain、Llama-Index、pandas-ai)可能存在安全漏洞,例如 SQL 注入、代码执行或命令注入等,攻击者利用这些漏洞可能导致数据损坏、信息泄露或服务中断。(3)系统逻辑缺陷风险:大模型系统可能存在数据权限和隔离、访问控制、业务逻辑等方面的缺陷,这些缺陷可能使得系统容易受到未授权访问、API 滥用、数据窃取或滥用、越权访问等攻击,进而可能导致法律纠纷和监管处罚。(4)插件相关安全风险:大模型的插件可能存在缺陷,在与大模型服务交互时可能引发敏感信息泄露、提示词注入、跨插件请求伪造等安全问题,这可
16、能导致系统遭受攻击、数据泄露或服务中断。2.4 业务应用安全风险在业务应用部分可能存在测试验证数据更新不及时等一般风险。其重点风险包括:(1)生成违法不良信息:大模型可能产生包含对国家安全、公共安全、伦理道德和行业规范构成威胁的内容。(2)数据泄露问题:存在攻击者通过逆向工程、成员推理攻击或提示词注入等手段窃取训练数据的风险,这些数据可能包含敏感的个人信息或商业机密,可能导致隐私泄露、知识产权侵权和经济损失。此外,用户在与大模型互动时,也可能由于疏忽或不熟悉相关风险,无意中泄露自己的隐私或保密信息。FOUNDATION MODEL SAFETY RESEARCH REPORT1716大模型安全
17、研究报告(3)用户恶意使用风险:在大模型应用中,存在一些用户或实体不遵守道德规范和法律法规,使用模型进行恶意活动的风险。总体来说,大模型在人工智能的发展中引入了模型“幻觉”、提示注入攻击、大模型插件缺陷等新风险,并加剧了数据泄露、模型偏见、系统缺陷等传统人工智能技术已有风险。3.大模型带来新安全机遇当前网络空间安全面临攻击隐蔽难发现、数据泄露风险高和违法信息审核难等挑战。大模型展现出强大的信息理解、知识抽取、意图和任务编排等能力,为网络空间安全瓶颈问题提供了新的解决思路和方法。与此同时,大模型发展也催生了恶意软件自动生成、深度伪造等新型攻击方式,已有安全措施无法有效检测和防御,亟待利用大模型技
18、术创新保护机制抵御新型威胁。大模型可显著提升网络威胁识别防御响应的精准度和时效性。在威胁识别阶段,大模型通过整合威胁情报、挖掘零日漏洞、执行代码审计和网络攻击溯源,可有效识别系统业务风险,提供针对性防御措施。在安全防御阶段,大模型通过对安全策略进行动态推荐与调整,强化安全防御效果。在安全检测阶段,大模型通过告警分析、报文检测、钓鱼邮件识别和未知威胁检测,深度识别攻击意图,研判攻击样本,提升攻击识别准确度。在安全响应阶段,大模型针对实际攻击行为提供自动化响应策略与处置流程,并撰写事件分析报告。在安全恢复阶段,基于运营目标执行全面的模拟演练,为安全恢复提供最佳实践指导。大模型能有效提升数据安全技术
19、的普适性和易用性。大模型通过深度学习和自然语言处理技术,能够理解和分析复杂的非结构化数据,自动识别并提取关键特征。这种智能分析能力极大地降低了对人工分析的依赖,使得数据分类分级等数据安全技术更加易于普及。同时,大模型的自学习能力意味着它可以不断从新的数据安全标准及样例集中学习并优化其安全策略,无需频繁的人工干预。这不仅提高数据安全的适应度和响应速度,也提高了数据安全技术的易用性。大模型能有效提升内容安全技术的鲁棒性和准确性。与传统的内容安全技术相比,大模型在多模态数据处理上具有显著优势,正在成为提升内容安全技术鲁棒性和准确性的关键。大模型的鲁棒性体现在其对不同格式、风格和质量的内容均能保持稳定
20、的检测性能,即使面对攻击者采用隐喻、漫画等形式刻意规避检测手段,也能保持较高的识别率。大模型的自学习能力,使其能够不断从新数据中学习,适应不断变化的虚假信息、深度伪造(Deepfake)等网络威胁,从而提高检测的准确性。大模型安全由大模型自身安全及大模型赋能安全两个核心要素构成。前者包含大模型安全目标、安全属性,保护对象及安全措施四个方面,后者则为发挥大模型对网络空间安全的赋能作用提供技术方向指引。4.1 大模型自身安全大模型自身安全是指在训练数据、算法模型、系统平台、业务应用这四个重要层面执行安全措施,以确保模型的安全、可靠、可控,并保障其伦理性、合规性、可靠性、可控性、鲁棒性等安全属性。同
21、时,对大模型的系统、数据、用户、行为四个对象进行严格保护,确保大模型系统提供服务时的安全性。4.2 大模型赋能安全大模型赋能安全是指在网络安全、内容安全、数据安全等领域,利用大模型的信息处理、知识抽取、意图识别等能力,增强网络安全防御能力、数据安全保护能力、内容安全检测过滤能力,提高安全事件处理的效率和准确性,提升安全技术的智能化水平,促使安全防护更加主动、智能和高效。4.大模型安全研究范围FOUNDATION MODEL SAFETY RESEARCH REPORT1918大模型安全研究报告二.大模型自身安全大模型自身安全1.大模型自身安全框架2.训练数据安全措施3.算法模型安全措施.4.系
22、统平台安全措施2FOUNDATION MODEL SAFETY RESEARCH REPORT2120大模型安全研究报告1.大模型自身安全框架FOUNDATION MODEL SAFETY RESEARCH REPORT2322大模型安全研究报告本报告从消减大模型面临的基础共性安全风险出发,构建如图 3 所示大模型自身安全框架。大模型自身安全框架涵盖安全目标、安全属性、保护对象、安全措施四个层面,这四个层面基于自顶向下、层层递进的方式提出了构建大模型自身安全的整体解决方法。1.1 安全目标目前,欧盟、美国、中国等世界主要地区和国家以及微软、谷歌等科技企业均提出大模型伦理准则。本安全框架在充分借
23、鉴国内外大模型伦理准则要求的基础上,在我国战略层面提出的“确保大模型安全、可靠、可控”总体目标基础上,基于大模型面临的安全风险和挑战,根据大模型应用的实际需要,提出以下四个方面安全目标。训练数据安全可信:训练数据是大模型的基石,大模型从训练数据中汲取知识的同时,也面临着数据泄露、数据偏见、数据投毒等诸多安全隐患。因而,应确保大模型的训练数据不被窃取,不会泄露用户隐私,且未被篡改,能够真实反映物理世界和人类社会情况。算法模型安全可靠:大模型技术正逐渐应用于智慧医疗、无人驾驶等安全关键性场景,大模型算法模型的鲁棒可靠愈加重要。然而,大模型存在的鲁棒性不足、模型“幻觉”、可解释性差等自身技术局限,以
24、及指令注入、对抗样本、算法后门等新型安全攻击方式,都可能使大模型应用产生非预期的错误输出。因而,应当确保大模型的算法模型在规定的运行条件和时间周期内始终产生预期的行为和结果,且一直处于可控状态。系统平台安全稳定:构建大模型系统是各行各业使用大模型技术解决实际问题的主要方式,同时,大模型研发平台承担着为设计研发人员提供高效、便捷的研发环境的重要作用。然而,大模型系统和研发平台自身安全漏洞被攻击者利用也将带来应用系统被控制、敏感数据泄露、智能服务中断等严重安全问题。因而,应及时检测发现并修复大模型系统和研发平台的安全漏洞,做好大模型与插件间交互的安全监测与认证。业务应用安全可控:大模型已在交通、医
25、疗等领域展现出了强大的能力。滥用或恶意使用大模型应用将会给物理世界和国家社会带来巨大的负面影响。因此,首先应确保大模型系统应用目标符合国家法律法规和社会伦理的规范要求。1.2 安全属性参考 ISO/IEC 22989:2022信息技术 人工智能 人工智能概念和术语国际标准、GB/T 41867-2022信息技术 人工智能术语国家标准等标准文件,将大模型安全属性概括如下:真实性:训练数据能真实反映物理世界客观规律和人类社会实际运转情况的性质。多样性:训练数据应覆盖尽可能多的样本,以确保大模型能对不同情况进行泛化的性质。准确性:针对所规定的各项安全要求,大模型展现其正确实现这些要求的性质。机密性:
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 模型 安全 研究 报告 2024
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【宇***】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【宇***】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。