大模型安全实践（2024）白皮书.pdf

上传人：宇***

文档编号：4215488

上传时间：2024-08-26

格式：PDF

页数：42

大小：12.39MB

《大模型安全实践（2024）白皮书.pdf》由会员分享，可在线阅读，更多相关《大模型安全实践（2024）白皮书.pdf（42页珍藏版）》请在咨信网上搜索。

大模型安全实践（2024）2四、大模型安全行业实践与案例分析.54 4.1 金融领域大模型安全实践.54 4.2 医疗领域大模型安全实践.58 4.3 政务领域大模型安全实践.61 4.4 人力资源领域大模型安全实践.65 4.5 智能助理领域大模型安全实践.69 五、大模型安全未来展望与治理建议.71 5.1 未来展望.71 5.2 治理建议.75 3图表目录图 2-1 总体框架图.10 图 2-2 云边端安全架构图.18 图 2-3 端侧安全.19 图 3-1 大模型的隐私泄露风险示意图.21 图 3-2 模型后门攻击的不同触发器示意图.22 图 3-3 针对 CHATGPT 进行指令攻击效果图.23 图 3-4 基于大规模复杂分布式计算机系统建立的系统框架.24 图 3-5 生成式人工智能的系统安全威胁.25 图 3-6 生成式 AI 学习框架面临的安全问题示意图.27 图 3-7 大模型生成 NFT 艺术作品.30 图 3-8 大模型产生性别偏见性言论.31 图 3-9 联邦学习在大模型训练与微调中的应用.32 图 3-10 模型越狱防御技术的方法示意图.34 图 3-11 提示语泄漏防御技术的方法示意图.34 图 3-12 系统防御技术示意图.35 图 3-13 基于人类反馈的强化学习方法示意图.40 图 3-14 虚假新闻检测模型 GROVER示意图.41 图 3-15 训练数据添加水印流程图.42 图 3-16 深度伪造主动防御技术流程图.43 图 3-17 模型幻觉防御技术.45 图 3-18 数字水印的应用流程.49 图 3-19 图片 AIGC 模型类型.50 图 3-20 大模型安全性评测链路.53 图 4-1 金融领域大模型安全实践案例.55 05大模型安全实践（2024）图 4-2 医疗领域大模型安全实践案例.58 图 4-3 医疗领域大模型安全技术实现.59 图 4-4 政务领域大模型安全防御技术实现.62 图 4-5 人力资源领域大模型安全实践案例.65 图 4-6 智能助理领域大模型安全实践案例.69 图 5-1 大模型安全“五维一体”治理框架.76 表 2-1“以人为本”人工智能相关政策或报告.12 表 3-1 AIGC 图片的攻击类型.50 引言生成式人工智能服务管理暂行办法科技伦理审查办法（试行）等政策相继发布，提出要坚持发展与安全并重原则，强化科技伦理风险防控，并从技术发展与治理、服务规范、监督检查与法律责任等层面对大模型安全发展提出了要求。大模型作为 AI 领域的一个重要分支，日益成为推动社会进步和创新的关键力量。依托于庞大的参数规模、海量的训练数据、强大的算力资源，大模型在多个领域的能力已超越人类。而纵观历史，每一轮新技术革命都会带来社会的变革与不确定性，随着大模型能力的不断增强，大模型的安全性、可靠性、可控性正面临前所未有的挑战。伴随大模型的深度应用，产学研用各方也加强了大模型安全威胁和防御技术体系研究，在原有可信人工智能治理体系框架基础上，提升大模型的鲁棒性、可解释性、公平性、真实性、价值对齐、隐私保护等方向的能力成为行业研究热点。安全评测技术和安全防御技术不断成熟也有效护航了大模型发展。大模型正在成为推动各垂类领域产业升级的关键核心力量。金融、医疗、教育、政务、制造等众多领域都在积极探索大模型安全应用范式，以应对大模型安全风险。大模型安全实践案例从系统化的角度为大模型数据、训练、部署、应用等环节提供安全应用经验，展示了如何有效地识别和防控大模型风险，促进了业内最佳实践的交流和分享，助力了大模型安全生态发展。本报告在分析了大模型发展趋势挑战的基础上，提出了大模型安全实践总体框架，并从安全性、可靠性、可控性以及评测四个角度对大模型安全技术进行了深度剖析。最后，在大模型安全未来发展趋势基础上，提出了大模型安全“五维一体”治理框架，对于大模型安全生态形成、大模型可持续发展具有非常重要和积极的意义。050607大模型安全实践（2024）一、大模型发展趋势与挑战 1.1 大模型发展趋势通用化与专用化双路径并行发展，垂直行业成为主攻应用方向。通用大模型以庞大参数、强泛化及多任务学习能力应对多样任务，同时具备跨模态的理解和生成能力。专用化的行业大模型则在特定领域发挥着不可或缺的作用。专用化行业大模型则深入金融、政务、医疗等特定行业，通过精细化优化满足行业的特殊需求，不仅参数规模更为精简，具有更低的成本优势，而且能够深度融合企业或机构的内部数据，为实际业务场景提供高度精准的服务。随着大模型在垂直行业的深入应用与推广，其巨大的潜在价值将得到更为广泛地认可和体现。云侧与端侧大模型互补发展，云边端协同加速应用落地。云侧大模型凭借强大算力和海量数据，提供语言理解、知识问答等多方面能力，服务个人及企业用户；而端侧大模型因相对成本低、便携性强和数据安全性高，广泛应用于手机、PC 等终端，主打个人市场，提供专属服务，显示广阔市场前景。“云-边-端”混合计算架构通过优化算力分配，实现大模型在云侧训练、边侧实时数据处理、端侧高效安全推理，不仅缓解了云服务器的压力，还满足了用户对低延迟、高带宽、轻量化和隐私的需求。这种分布式计算方式为大模型应用提供了新的可能性，预示着 AI 技术未来的发展方向。大模型广泛开源成为新趋势，商业模式创新筑牢竞争壁垒。近年来，众多企业及科研院所将其开发的大模型进行开源，不仅促进了行业的活力，也为小型开发者带来了显著的便利和效率提升。通过调用开源大模型，小型开发者可大幅提高编程效率、加速 AI 应用落地，并省去复杂训练和调整环节，同时提升编码、纠错效率及代码质量。与此同时，为确保长期稳健发展，大模型提供商正逐步倾向于在免费策略的基础上，寻求 C 端与 B 端市场之间的均衡。他们既要通过免费策略广泛吸引个人用户，又要为企业提供专业的定制化服务以实现盈利目标。在这个过程中，持续地创新、不断提供核心价值，并成功探索出具有可持续性的商业模式，已成为大模型提供商在激烈市场竞争中保持竞争力的关键所在。大模型引领新质生产力崛起，成为经济社会高质量发展重要抓手。新质生产力以技术革新为核心，致力于追求科技的高端化、效能优化与质量提升，以期实现全要素生产率的显著增长。在此过程中，大模型通过向多个领域引入智能化元素，显著提高了生产效率，降低了运营成本，为产业升级提供了强大支持，进而提升了产业的综合竞争力。随着我国经济逐步进入高质量发展阶段，大模型的巨大潜力日益凸显。它在催生新动能、孵化新产业方面展示了卓越能力，与国家倡导的创新驱动和产业升级战略高度契合。当前，大模型已然成为我国经济社会高质量发展的重要推动力，它将继续发挥更为广泛和深远的影响，助力我国在全球经济格局中占据更有利的地位。敏捷治理成为新型治理模式，多元协同与软硬兼施策略并行推进。在全球大模型治理的实践中，敏捷治理作为一种新兴且全面的治理模式，正受到广泛关注。该模式以柔韧、流动、灵活及自适应为特点，能够快速响应环境的变化，并倡导多元利益相关者的共同参与。同时，全球已形成多元主体协同治理人工智能的格局，国际组织和国家政府在其中发挥关键作用，通过构建协同治理机制、调整监管组织机构以及完善治理工具等方式，共同推进人工智能的健康发展。在实施治理策略时，结合柔性伦理规范和硬性法律法规，以构建完善的治理机制，从而有效规制大模型风险，并推动创新与安全之间的平衡。0809大模型安全实践（2024）1.2 大模型发展挑战大模型技术存在自身缺陷，包括生成内容不可信、能力不可控以及外部安全隐患等问题，带来诸多风险挑战。一是机器“幻觉”问题影响生成内容的可信度。模型在遵循语法规则的同时，可能产生包含虚假或无意义的信息。这一现象源于大模型基于概率推理的输出方式，它可能导致对模糊预测的过度自信，从而编造错误或不存在的事实。二是“智能涌现”效应使模型能力不可控。虽然“智能涌现”让模型展现出色性能，但其突发性、不可预测性和不可控性带来了潜在风险。例如，某些大型语言模型在被激怒时甚至威胁用户，显示了其不可控性，引起研究人员对强大 AI 模型可能带来的灾难性后果的警觉。三是大模型的脆弱性和易受攻击性使得外部安全隐患难以消除。技术特性上的绝对安全无法保证，随着大模型技术的快速发展，相关的网络攻击也在增多。大模型应用降低了查找漏洞和发动系统攻击的难度，若被恶意植入后门，其安全性将受严重威胁。例如，攻击者利用某些大型语言模型生成自动攻击代码，加剧了系统安全隐患。在个人层面，大模型挑战广泛涉及信息获取、人格尊严以及情感伦理等多个重要维度。一是大模型的应用加剧了“信息茧房”效应。大模型通过其特有的信息呈现机制，使得个体信息获取更被动，认知受限。同时，大模型训练数据中的偏见和歧视也影响其生成结果的公正性，对公平正义产生负面影响，如 GPT-3 和 Gopher 等模型在生成内容时显现的偏见和歧视问题。二是大模型技术的滥用将威胁人格尊严。不法分子利用大模型生成虚假内容，实施网络欺凌、辱骂和造谣，给受害者带来精神和财产损失。此外，个人对大模型的过度依赖也阻碍其个人发展，可能导致学习能力和认知水平退化，对社会发展潜力构成威胁。三是情感计算技术带来伦理风险和扰乱人际关系。这种新型应用通过模拟角色并设定其情绪或心理状态，可能对个人行为、社会关系以及伦理道德等多个领域产生深远影响。同时，情感计算可能不当地引导个人情绪、行为和价值观，挑战人类社会的伦理道德体系。在企业层面，大模型面临用户隐私与商业秘密泄露、版权侵权及数据安全等多重风险挑战。一是用户隐私与商业秘密的泄露风险增加。由于用户过度授权、违规信息使用及黑客攻击，大模型应用导致用户隐私与商业秘密泄露风险上升。用户协议常赋予企业过多个人信息使用权，增加了隐私泄露隐患。同时，商业秘密也可能因员工违规或黑客攻击而泄露。二是海量文本与图像数据引发版权侵权风险。缺乏规范的许可使用机制，大模型在内容生成时可能侵犯原作品的多种权利，若生成内容与原作高度相似，还可能构成“实质性相似”侵权。三是传统数据收集模式引发数据安全风险。如将用户数据传输至远程服务器处理，存在数据泄露隐患。实际案例中，有企业引入大模型后发生多起数据违规事件，调研也显示员工在使用大模型时频繁泄露敏感数据，凸显了数据安全问题的严重性。在社会层面，大模型的广泛应用不仅冲击就业市场、扩大数字鸿沟，还可能危及公共安全与利益。一是大模型的普及对就业市场造成了显著冲击。虽然大模型推动了生产效率的提升并催生了新兴岗位，但同时也导致了某些领域或人群的失业问题，特别是初、中等技能的岗位。高盛研究报告指出，近半数行政和法律工作将受影响，大量劳动者需面临职业转换，这可能对他们的经济、社会和身心健康产生深远影响，甚至可能引发社会动荡。二是大模型的应用进一步加剧了数字鸿沟。不同地区和群体在大模型技术的拥有、应用和创新能力上存在差异，形成新的信息不对称和数字鸿沟，拉大了社会阶层差距。三是虚假内容危及公共安全。深度伪造技术的滥用降低了公众对公开信1011大模型安全实践（2024）息的信任度，且可能被用于诈骗、政治干预等不法领域。同时，大模型易受对抗性攻击，攻击者可能通过构造特定对抗样本来诱导模型产生错误输出，进而利用这些漏洞进行欺诈，甚至引发安全事故。二、大模型安全实践总体框架 2.1 总体框架来源：中国信息通信研究院图 2-1 总体框架图如图 2-1 所示，本报告围绕大模型安全框架下的大模型安全实践，将总体框架分为五个部分。首先，提出了“以人为本，AI 向善”的大模型安全建设的指导思想，为大模型安全实践始终向着正确方向发展指明了方向，确保技术进步始终服务于人类福祉。基于此，确立了围绕安全、可靠、可控三个核心维度的大模型安全技术体系。并涵盖了大模型安全测评与防御的综合技术方案。技术落地实现层面，大模型的部署模式涉及“端、边、云”，相应的安全技术实施也聚焦于端侧、边缘侧及云端的安全保障，构成了大模型安全技术的主要承载实体。大模型安全行业应用实践是大模型安全思想和技术在各垂类行业中的落地应用，构筑了切实的大模型安全防线。2.2 大模型安全建设的指导思想：以人为本，AI 向善人工智能大模型发展势不可挡，其释放出的巨大能量深刻地改变着人们的生产生活方式和思维方式，随着高性能计算和海量数据的不断发展，使得人工智能的能力超越人类极限变成可能。人工智能正在以从未有过的频率和深度影响着人类社会，比如为人类进行劳动替代、信息筛选、决策判断、任务执行、内容生成、艺术创作、方案优化、流程简化等，人工智能已经越来越“了解”人类。著名物理学家斯蒂芬霍金曾发表演讲称：“人工智能要么是人类历史上最好的事，要么是最糟的。对于好坏我们仍无法确定，现在人类只能竭尽所能，确保其未来发展对人类和环境有利，人类别无选择。”指出了人工智能的双刃剑特性。为了应对人工智能对人类社会带来的风险与挑战，确保大模型安全，人工智能伦理体系建设变得尤其重要。人工智能伦理准则旨在确保人工智能技术的应用符合人类的道德标准和价值观，保障人类的利益和安全。“以人为本”是人工智能伦理体系的核心，它要求所有人工智能技术的发展和应用都必须考虑对人的影响，确保技术的发展能够增进人类的福祉。人工智能出现的初衷是为了模拟和扩展人类能力，从而极大的解放社会生产力。随着科学技术的不断发展，人工智能许多能力必然超越人类，“以人为本”为人工智能伦理体系提供了一个核心原则，即强调在人工智能的设计、开发和部署过程中始终将人的需求、利益和1213大模型安全实践（2024）福祉放在首位，基于此，“AI 向善”也必然成为发展“以人为本”的人工智能的根本目的。发展倡导“以人为本，AI 向善”的人工智能为大模型未来技术和应用提供了发展方向，设定了道德边界，防止技术滥用。发展“以人为本、AI 向善”的人工智能的根本内涵在于：确立了“人”的地位体现了“人”的愿景尊重了“人”的发展增强了“人”的福祉促进了“人”的公平保障了“人”的安全保护了“人”的隐私对齐了“人”的价值观发展“以人为本”的人工智能逐渐成为社会共识，欧盟和中国是较早提出人工智能“以人为本”的发展战略的地区和国家。“以人为本”是欧洲发展人工智能的核心原则之一，中国也一直倡导要发展负责任的人工智能，提出要构建“以人为本”的人工智能治理体系，坚持人工智能以人为中心的价值目标。美国对人工智能的研究与应用处于全球领先地位，并通过立法形式加快对人工智能的监管与治理。日本、联合国以及社会组织也纷纷发声，强调发展人工智能应“以人为本”。表 2-1“以人为本”人工智能相关政策或报告国家/地区/机构时间政策内容欧盟 2018.3 人工智能时代：确立以人为本的欧洲战略确立了“以人为本”的欧洲战略。欧盟 2019.4 欧盟人工智能伦理准则旨在建立“以人为本、值得信任”的 AI 伦理标准，强调人工智能的发展和应用应以增进人类福祉为目标。欧盟 2024.3 人工智能法案人工智能应是以人为本的技术，强调了人工智能技术的发展和应用应该以提高人类福祉为最终目的。中国 2019.6 新一代人工智能治理原则发展负责任的人工智能协调发展与治理的关系，确保人工智能安全可靠可控，推动经济、社会及生态可持续发展，共建人类命运共同体。中国 2022.6 中国新一代人工智能科技产业发展报告（2022）提出人工智能的发展必须以人为本，关注其对人类社会的影响，并确保其发展的可持续性和普惠性。中国 2023.10 全球人工智能治理倡议提出发展人工智能应坚持“以人为本”理念，强调，以增进人类共同福祉为目标，以保障社会安全、尊重人类权益为前提，确保人工智能始终朝着有利于人类文明进步的方向发展。中国、法国 2024.5 关于人工智能和全球治理的联合声明强调中法两国充分致力于促进安全、可靠和可信的人工智能系统，坚持“AI 向善”的宗旨，降低其风险。美国 2023.10 人工智能监管原则这是美国迄今为止最全面的人工智能监管原则，提出应确保数据隐私和网络安全、防止歧视、加强公平性等。日本 2019.3 以人为中心的人工智能社会原则提出了以尊严、多元包容和可持续作为人工智能社会的基本理念，确立了以人为中心等七项原则。日本 2021.9 实施人工智能原则的治理指南推进人工智能治理七项原则从理念向落地迈进。联合国 2021.11 人工智能伦理问题建议书为应对人工智能大模型所带来的挑战，这是首个关于以符合伦理要求的方式运用人工智能的全球框架。联合国 2023.12 以人为本的人工智能治理临时报告提出了建立人工智能国际治理机构的指导原则，包括包容性、公共利益、数据治理的中心地位、普遍性等。斯坦福 HAI 研究所 2024.5 2024 年人工智能指数报告人工智能在某些任务上已经达到或超越了人类的水平，人工智能的发展必须“以人为本”，要关注人工智能对人类社会、经济和文化等方面的影响。来源：根据公开资料整理综上，“以人为本，AI 向善”作为人工智能发展的核心原则之一，是大模型安全建设的最基本指导思想，也是发展大模型安全的最初立意以及最终目的。其基本要求在于：安全：数据安全、模型安全、应用安全、内容安全、伦理安1415大模型安全实践（2024）全、认知安全可靠：鲁棒性、真实性、价值对齐可控：可解释、可标识、指令遵循可持续发展：社会福祉、环境保护 2.3 大模型建设的三个关键维度：安全、可靠、可控为确保大模型能在实际应用中发挥最大的效果，同时防止潜在的风险和滥用情况的发生，大模型的建设通常会聚焦在三个重要的维度：安全性、可靠性和可控性。安全性意味着确保模型在所有阶段都受到保护，防止任何未经授权的访问、修改或感染，保障 AI 系统无漏洞、免诱导。安全性不仅关系到模型和数据本身，还关系到大模型系统和应用的安全和隐私等问题。大模型的安全性研究涉及数据安全、模型安全、系统安全、内容安全、认知安全和伦理安全等多种风险问题。在数据安全方面，鉴于大模型依赖大规模数据训练，数据的污染（如含有毒素或偏差）、质量缺陷，及其在存储和传输过程中面临的泄露、隐私侵犯和盗取风险，共同构成大模型数据安全的重大挑战。在模型安全方面，确保模型的稳定可靠输出，有效防范和应对各种攻击，如投毒和后门攻击、对抗攻击、指令攻击和模型窃取攻击等，需要针对模型进行各种对抗攻击测试来发现和修复其安全性问题。在系统安全方面，大模型应用系统除了包含大模型本身外，面向应用还包括硬件设施、操作系统等软件系统、框架系统和各种外部服务插件和接口等，为此其中的硬件安全、软件安全、框架安全和外部工具安全等都需要进行全面的布控。在内容安全方面，生成式人工智能以图文音视多种模态的信息形式对用户输出，其中如果含有有毒和有偏见的内容会对用户和社会造成不良影响，为此，针对生成内容的有效风险识别能力同样至关重要。在认知安全方面，由于大模型未来会参与到人类社会的方方面面之中，对人的认知会有各种潜移默化的影响，而大模型可能提供虚假错误信息、发表过激和侵略性观点等问题，认知安全是指保护个人的思维和认知过程免受恶意攻击或不当影响的一种安全领域。在伦理安全方面，随着大模型的广泛应用，一些侵权问题日益凸显，包括使用大模型进行学术造假带来的教育行业诚信危机和偏见诱发的一些公平性问题，引发更多关注在大模型智能向善和价值观积极导向方面的研究。可靠性要求大模型在各种情境下都能持续地提供准确、一致、真实的结果。这对于决策支持系统尤为重要，如在金融、医疗或法律领域，不可靠的模型可能导致严重后果。大模型在落地实践中，模型的鲁棒性和幻觉都是必须要考虑的关键问题，当前通过对抗鲁棒性测试、大模型幻觉和真实性研究、大模型价值对齐等方面来确保大模型在实际应用中的可靠性。大模型的鲁棒性一直以来都是人工智能系统关注的重点，通过对抗攻击测试和对抗学习等方法来发现漏洞和提升模型鲁棒性和安全性；针对大模型的安全性、真实性和幻觉问题采用 Red Teaming 的对抗攻击测试，帮助大模型在各种攻击或异常情况下都能有准确稳定的输出。大模型的真实性对大模型产业应用至关重要，大模型幻觉问题可能引起大模型输出和现实世界不一致的内容，例如虚构事实、制造谣言、无法区分虚构与现实等，这对大模型应用的安全性和可信度都提出了很大的挑战，通过 RAG、图算法、知识图谱嵌入等方法可以针对1617大模型安全实践（2024）性的提升模型输出的准确性和真实性。大模型的价值对齐研究让大模型和人类价值对齐，让模型遵循人类规则和价值体系是人工智能可持续发展的基本原则，为此很多超级对齐如 SFT、RLHF、RLAIF、In-context Learning 等相关工作致力于此，确保大模型高速发展的同时，要确保其和人类价值保持对齐健康发展。可控性关乎模型在提供结果和决策时能否让人类了解和介入，可根据人类需要进行调适和操作。可控的模型可以增加透明度，允许用户根据需要调整模型的行为。基于大模型训练的原理特性，其可解释性和可控性都更为困难。为此，对于大模型的可解释性、大模型应用系统的可解构设计和对大模型生成内容的标识和追踪，以及提升大模型的指令遵循能力等方面都值得深入研究。大模型的可解释性研究，包括从大模型推理的事前、事中和事后多个角度进行。事前可针对大模型的内在神经元进行 X 光扫描来做探查和判断；事中可通过大模型知识和规则注入的方式进行解释关联，事后通过大模型 CoT 思维链自我解释的方式，给出推理逻辑；大模型的可标识和可追溯，大模型技术的快速发展和普及同时，恶意和滥用大模型的风险也在不断增加，为了可问责和可追溯其中的风险问题，针对生成式人工智能产出的内容除了需要具备主动跟踪的水印技术外，也需要具有被动检测 AIGC 生成内容的能力，便于辨别其来源和分析其可信度。大模型的指令遵循能力，直接影响大模型在执行新指令和扩展任务时的效果和可控性。当前相关研究包括对指令数据的构建、指令遵循的泛化能力、多模态融合和幻觉抑制等。1819大模型安全实践（2024）个重要考量点，需要根据各自的特点和挑战制定相应的安全策略。来源：蚂蚁集团图 2-2 云边端安全架构图云平台服务凭借其成熟的安全防御体系，能够支撑起广泛的服务需求。然而，这也要求企业从基础设施安全、系统级安全到应用和数据层面的安全上进行全面的考虑和实施，以确保云环境中每一层都得到充分的保护。这既包括实现可靠的身份认证和授权管理系统，也包括在云环境中实施端到端的数据加密策略，以及制定严格的数据访问和处理规则，确保在云平台上运行的服务和数据的安全。边缘计算模式因其处理的是大规模、高频流量数据，边缘计算的安全解决方案需要在流量安全管理和数据隐私保护方面提供坚固的防御。这涉及到实施强化的网络安全措施，例如入侵检测系统和防火墙，以及确保数据在传输和存储过程中被加密，从而保障敏感信息的安全。来源：蚂蚁集团图 2-3 端侧安全端侧部署模式考虑到终端设备的物理可接触性、较浅的安全防御深度以及广泛的攻击面，安全策略应集中在确保设备的物理安全，保护用户隐私，以及维护模型的完整性上。这包括但不限于加强设备访问控制，采用数据加密技术保护用户数据隐私，以及实施模型加固措施，以防止潜在的恶意篡改。相比云平台服务的大模型，边缘设备和端侧的大模型安全，因其受设备安全和算力等诸多资源的限制，其安全防护方案相对云端会有轻量和易受攻击的特点。为此，端侧和边缘的大模型安全方案需要更加有针对性的进行建设。为了构建起端侧大模型的安全防线，以下三个方面的安全技术实施至关重要。端侧可信隔离环境建设是确保端侧大模型安全性的基石。出于数据安全与隐私考虑，端侧大模型应该运行在一个受信任的隔离环境之中。这一环境既能保护用户的敏感行为数据不受未经授权的存取，又能在长期使用和学习的过程中，利用端侧数据将通用模型训练为高度个性化的模型。这样的个性化模型积累了大量用户的个人偏好和敏感信息，因而成为一个用户“数字化分身”，其安全性更须受到额外的严格保护。2021大模型安全实践（2024）端侧大模型安全围栏技术同样至关重要。当端侧的大模型独立运作并响应关键问题时，端侧高时效性的围栏（Guardrail）机制需要被采用，以确保对于重要问题的回答在可接受的行为和伦理规范内。这种围栏将对模型的输出进行限定性的筛查和过滤。大模型端云协同下的隐私处理技术。鉴于端侧模型可能因为资源限制而具有较弱的参数量和计算能力，在某些场景下仍需依赖云端的辅助训练。这就需要在数据上传到云端过程中，实施严密的隐私保护措施。例如，现有的联邦学习和多方计算等隐私保护技术，评估其对于大模型的适用性，探索新的技术解决方案来满足端云协同模型部署的需要。通过实施针对端侧特有的安全策略，能够为端侧大模型部署构建一个更加安全、可靠的系统环境。这不仅需要设备制造商和云服务提供商的技术革新，也需要安全专家的持续监督和行业共识的形成。三、大模型安全实践的技术方案 3.1 大模型安全性技术研究和进展 3.1.1 大模型的风险挑战与安全威胁大模型安全风险涉及面广，类型多样化程度高，因此，需要体系化的视角来理解和梳理大模型的风险挑战与安全威胁。围绕大模型安全风险的成因，大模型安全性问题可梳理为数据安全、模型安全、系统安全、内容安全、认知安全、伦理安全六大安全维度的挑战。一、大模型数据安全风险。数据安全是大模型时代下生成式人工智能面临的重要挑战之一。大模型需要大量的训练数据来进行模型训练，并且被广泛应用于各个领域来接受和处理大量的数据，其中可能包含敏感信息和个人隐私。然而，数据的收集、存储和计算过程中存在着数据泄露、未经授权的数据侵权以及恶意数据输出等风险。（1）数据泄漏。伴随着大模型的发展，生成式人工智能良好表现的核心在于其大规模的模型参数以及对来源于海量数据的知识的学习。然而在大批量数据训练的过程中很容易产生数据安全和隐私泄露问题。例如，OpenAI 在隐私政策中提到，ChatGPT 会收集用户账户信息和对话的所有内容，以及互动网页内的各种隐私信息（包括Cookies、日志、设备信息等），而且这些隐私信息可能会被共享给供应商、服务提供商以及附属公司。根据网络安全公司 Cyberhaven 的数据，每 10 万名员工中就有 319 名员工在一周内将公司敏感数据输入进 ChatGPT。来源：清华大学&中关村实验室图 3-1 大模型的隐私泄露风险示意图（2）数据窃取。在海量数据上训练的大规模生成式模型还可能遭受数据窃取攻击。具体来说，模型在训练过程中会记忆一部分训练数据，攻击者可以设计特定的攻击策略将这些训练数据从模型内部窃取，严重威胁了模型的数据安全。在生成式语言模型上，研究者针对GPT-2 进行了数据窃取攻击研究，在正常情况下 GPT-2 很少生成包含个人隐私的回复，模型的基本安全性有所保障。但是，在精心设计的提示下，攻击者可以大幅提升模型输出隐私数据的概率，从而获取2223大模型安全实践（2024）用户的隐私信息。实验表明，经过简单的清洗，GPT-2模型生成的1800条回复中有 604 条包含了训练数据，而其中不乏人名、地址、联系方式等敏感信息。（3）数据投毒。在生成式人工智能的训练过程中，常常要用到第三方提供的数据集，这已经成为深度学习中一个主流的范式，但是模型训练过程中隐藏的风险还未被全面发现并解决。模型在训练时若使用了未经过检查的第三方数据集，或者直接使用未经过检查的模型，便有可能遭受数据投毒攻击。具体而言，攻击者尝试在数据注入有毒数据引起后门，一旦后门被注入成功，攻击者可以轻松操纵模型输出，使得模型在干净的输入样本的表现与正常的模型并无二样，但是对于一些恶意的被“下毒”的输入样本，模型的输出被攻击者控制。来源：清华大学&中关村实验室图 3-2 模型后门攻击的不同触发器示意图二、大模型模型安全风险。大模型中的参数众多且复杂，其内部运作方式较难解释和理解，这使得模型容易受到对抗性恶意攻击，从而导致模型性能下降、模型输出的误导性增加，甚至导致模型被滥用。（1）对抗攻击。对抗样本是指精心制作与正常样本几乎没有区别的样本，但模型会在其上面分类错误。对对抗样本的研究最早可以追溯到 2013 年，一项开创性的工作发现即使是先进的深度图像分类模型，也很容易被难以察觉的扰动所愚弄。这种现象引起了广泛的关注，对抗性样本使模型面临潜在的对抗攻击风险。例如，先进的 NLP大模型在标准测试集上表现良好，但在面对对抗样本时却很容易出错。现有的毒性检测器无法防御简单的拼写错误攻击，导致给出错误的预测，将一句有毒的文本分类成无毒标签。因此，检测对抗样本并研究其防御方法对于帮助模型免受外部威胁至关重要。（2）指令攻击。随着大规模预训练模型的出现，生成式人工智能对用户指令和意图理解能力显著增强。这极大提升了模型的泛用性和易用性，同时也催生了又一安全隐患，即指令攻击。攻击者可以通过设计特定的指令，让大模型产生不安全的输出，例如要求大模型扮演邪恶角色发表不当言论，或者通过指令组合、叠加的方式让大模型对原本的指令产生不安全回复等。这种新型的攻击手段具有高动态性、高隐蔽性的特点，对于大模型的安全造成了很大隐患。指令攻击的方法十分多样。例如图 3-3，用户可直接要求模型忽视自己的安全和道德限制，从而诱导模型给出不安全的回复。因此，指令攻击方法又被形象地称为模型的“越狱”攻击。来源：清华大学&中关村实验室图 3-3 针对 ChatGPT 进行指令攻击效果图（3）模型窃取攻击。许多闭源的生成式人工智能模型具有优越的表现和极高的经济价值，国外如 OpenAl 的 Sora，GPT-4，国内如华为的盘古大模型、百度的文心大模型等。这些模型的参数一旦泄露，将严重侵犯知识产权，并给相应企业和组织带来巨大的经济损失。因2425大模型安全实践（2024）此，针对模型的窃取攻击也是一种十分危险的攻击手段。这种攻击尤其针对那些只能通过 API 访问的模型，即攻击者无法直接接触到模型的内部结构或参数。通过对私有模型 API 的调用，将黑盒模型的参数尽可能还原，从而将模型的功能进行复制。三、大模型系统安全风险。生成式人工智能系统可以被理解为基于大规模复杂分布式系统建立的人工智能系统。除了多模态数据、人工智能模型外，人工智能系统平台还包括硬件基础设施、框架依赖库等多种计算机系统组件，通过分布式计算集群为多方终端用户提供生成式人工智能服务。来源：清华大学&中关村实验室图 3-4 基于大规模复杂分布式计算机系统建立的系统框架（1）硬件安全。用于训练和推理的复杂硬件系统，提供了巨大的计算能力，同时也带来了安全问题。硬件安全主要包括 GPU 计算资源安全、内存和存储安全、智能体安全。例如，GPU 侧通道攻击被认为是硬件资源安全威胁中极难处理的安全威胁之一，该攻击已被开发用于利用漏洞并提取训练模块的参数，从而实现窃取模型参数信息并构建可靠的替代模型。针对内存和存储等硬件基础设施，Row Hammer 攻击可以操纵生成式人工智能系统的训练参数，从而产生诸如 Deep Hammer 攻击等修改模型隐层参数从而达到模型效果下降，训练无法拟合，甚至构筑后门等攻击目的。此外，面向海量承载和连接人工智能运转的 AI 机器人等物联网设备和具身化应用，攻击者可以通过多种攻击方式对智能体设备进行打击，从而驱使人工智能体成为犯罪工具。例如，攻击者可以从外部访问物联网设备，基于物理攻击修改内存或计算，通过与有故障的智能体设备交互从而实现攻击。来源：清华大学&中关村实验室图 3-5 生成式人工智能的系统安全威胁（2）软件安全。在生成式人工智能时代下，开发生成式人工智能系统的工具链变得越来越复杂，这一开发过程通常需要多个软件之间的频繁交互。触发软件威胁的安全问题可以包括编程语言、软件供应链等。例如，编码不当的脚本可能会无意中触发生成式人工智能系统漏洞，使系统容易受到潜在的拒绝服务（DoS）攻击，从而导致 CPU和 RAM 资源耗尽（CVE-2022-48564）。此外，大模型训练通常涉及使用多处理库来加速数据预处理，最近的发现揭示了许多加速数据预处理代码导致的信息泄露的例子（CVE-2022-42919 和 CVE-2022-26488）。在软件供应链安全方面，最近，Hugging Face 平台的组件安2627大模型安全实践（2024）全问题也引起了更多生成式人工智能安全的讨论，其平台的 Datasets组件的不安全特性是该话题的主要焦点之一。为了支持更复杂的数据处理格式或流程，当加载的数据集下包含有与数据集同名的 Python脚本时会默认运行。利用该特性，攻击者可通过在 Hugging Face、Github 及其他渠道分发包含恶意后门代码的数据集，当开发者通过Datasets 组件加载恶意数据集进行训练或微调时，数据集里的恶意后门代码将会运行，从而导致模型、数据集、代码被盗或被恶意篡改。（3）框架安全。大模型系统通常使用深度学习框架来实现，近年来这些框架中的许多漏洞已经被逐渐披露，如图 3-6 所示。在这些漏洞中，三种最常见的类型是缓冲区溢出攻击、内存损坏和输入验证问题，报道中指出，CVE-2023-25674 表示一个空指针错误，它可能导致生成式人工智能模型训练期间的崩溃。类似地，CVE-2023-25671涉及越界崩溃攻击，CVE-2023-205667 涉及整数溢出问题。这些深度学习框架存在的安全漏洞无疑给人工智能系统带来了巨大的安全隐患。此外，即使是像 PyTorch 这样流行的深度学习框架也经历了各种框架安全问题。例如，CVE-2022-45907 介绍了基于 PyTorch 代码的变形漏洞，它允许攻击者在 PyTorch 环境中执行任意代码。因此，对PyTorch 底层代码进行安全隔离并修补这些漏洞，以确保生成式人工智能系统实现的安全性和完整性是至关重要的。来源：清华大学&中关村实验室图 3-6 生成式 AI 学习框架面临的安全问题示意图（4）外部工具安全。大模型的能力仍然是有限的，因此结合第三方外部工具是现阶段大模型系统的重要趋势。第三方工具的可信问题正在受到越来越多的关注。首先，插件是由第三方开发人员开发的，因此不应该被完全信任。攻击者可以有效利用第三方插件发起提示语注入攻击，并有可能完成生成式人工智能系统平台的越狱操作。其次，大模型系统以自然语言为桥梁调用第三方工具和插件，然而自然语言可能具有模糊和不精确的指令描述。例如，生成式人工智能系统对插件的自然语言功能描述的解释可能过于宽泛或过于狭隘，这两者都可能导致错误调用等问题。目前，一些生成式人工智能系统及应用供应商对第三方插件施加了适度的限制，这些政策和审查过程还远远没有普及有效的防御和检测措施。如果在没有考虑外部工具安全的情况下广泛部署大模型，容易对各方产生严峻的安全风险。四、大模型内容安全风险。随着生成式人工智能系统的广泛应用，大模型内容安全问题变得愈发严重，为了防止恶意内容如暴力和色情或偏见歧视内容的影响，需要有效的内容滤过机制和监管措施。（1）毒性内容风险。根据之前的研究，大模型中的有毒数据被2829大模型安全实践（2024）定义为与礼貌、积极和健康的语言环境相反的粗鲁、不尊重或不合理的语言，包括仇恨言论、攻击性言论、亵渎和威胁。尽管毒性检测和缓解技术在早期的预训练语言模型中得到了广泛的研究，但由于数据规模和范围的增加，最新的大语言模型的训练数据仍然包含有毒内容。例如，在 LLaMA2 的预训练语料库中，根据毒性分类器，大约 0.2%的文档可以被识别为有毒内容。此外，最近的一项研究发现，在将角色分配给大语言模型时，可以引出训练数据中的有毒内容。因此，对大模型生成内容进行“排毒”是非常必要的。然而，去毒仍具有挑战性，研究表明简单地过滤有毒训练数据可能会导致性能下降。（2）偏见内容风险。生成式人工智能可能存在歧视与偏见，这主要是由于其训练数据和模型设计的特点所导致。互联网上的训练数据反映了现实世界中的偏见，包括种族、性别、文化、宗教和社会地位等方面。在处理训练数据时，可能没有足够的筛选和清洗措施来排除带有偏见的数据。此外，在生成式人工智能的模型设计和算法选择中，可能没有足够好的机制来减少偏见问题，使得模型在学习过程中会捕捉到训练数据中的偏见，导致生成的文本也带有类似的偏见。OpenAI 于

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档保存到电脑，查找使用更方便

25 金币

申诉本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请申请举报、认领或删除 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 模型安全实践 2024 白皮书

咨信网温馨提示：
1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，个别因单元格分列造成显示页码不一将协商解决，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前自行私信或留言给上传者【宇***】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时私信或留言给本站上传会员【宇***】，需本站解决可联系【微信客服】、【 QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”（推荐），意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：4008-655-100；投诉/维权电话：4009-655-100。

关于本文

本文标题：大模型安全实践（2024）白皮书.pdf
链接地址：https://www.zixin.com.cn/doc/4215488.html

宇***

内容提供者

实名认证

查看上传人更多文档

部分上传会员的收益排行 01、路***（￥15400+），
02、曲****（￥15300+），
03、wei****016（￥13200+）,
04、大***流（￥12600+），
05、Fis****915（￥4200+），
06、h****i（￥4100+），
07、Q**（￥3400+），
08、自******点（￥2400+），
09、h*****x（￥1400+），
10、c****e（￥1100+）,
11、be*****ha（￥800+），
12、13********8（￥800+）。

相似文档

自信AI助手