2025年3月26日,美国国家标准与技术研究所(NIST)发布《对抗性机器学习:攻击和缓解的分类及术语》,其中包含攻击和缓解术语的更新定义以及最近的威胁缓解方法的发展。该指南通过预测性和生成性人工智能系统区分对抗性机器学习攻击,为新兴的对抗性机器学习威胁形势带来标准化。与2024年1月发布的初始版本相比,最终指南中的一些实质性变化包括对生成式人工智能模型学习阶段的概述、该领域正在进行的未解决的问题以及对不同人工智能系统攻击类别的索引。
一、AI攻击分类
1、攻击分类
该部分基于攻击者的目标、能力和知识,构建了一个系统的攻击分类框架。从学习方法和学习阶段、攻击者目标、攻击者能力、攻击者知识以及数据模态这五个维度对攻击进行分类。
学习方法和阶段:预测机器学习包含训练和部署两个阶段。在训练阶段,攻击者可进行数据或模型的中毒攻击;在部署阶段,则会出现逃避攻击、可用性攻击以及隐私攻击等。不同的学习范式,如监督学习、无监督学习、半监督学习、强化学习、联邦学习和集成学习等,为攻击提供了多样化的场景。
攻击者目标:分为可用性破坏、完整性违反和隐私泄露三类。可用性破坏旨在干扰系统服务,如通过数据或模型中毒影响系统性能;完整性违反是使系统产生与预期目标不符的输出,可通过逃避攻击或中毒攻击实现;隐私泄露则是获取系统的敏感信息,包括训练数据和模型的相关细节。
攻击者能力:攻击者具备训练数据控制、模型控制、测试数据控制、标签限制、源代码控制和查询访问等能力。这些能力在不同类型的攻击中发挥着关键作用,如训练数据控制用于数据中毒攻击,查询访问能力用于黑盒攻击和部分隐私攻击。
攻击者知识:分为白盒攻击、黑盒攻击和灰盒攻击。白盒攻击假设攻击者对系统有全面的了解;黑盒攻击则在攻击者对系统了解极少的情况下进行;灰盒攻击介于两者之间,攻击者掌握部分系统信息。
数据模态:涵盖图像、文本、音频、视频、网络安全和表格数据等多种数据类型。不同数据模态具有独特的特性,使得攻击方式和防御策略也有所差异。例如,图像数据的连续域特性便于应用基于梯度的攻击方法,而文本数据的离散性则给攻击带来了不同的挑战。
2、逃避攻击和缓解措施:逃避攻击通过生成对抗样本,使模型在部署时出现误判。
白盒逃避攻击:攻击者利用对模型架构和参数的了解,通过优化方法生成对抗样本。例如,Szedegy等人提出的基于优化技术生成对抗样本的方法,以及后续发展的如DeepFool、Carlini-Wagner攻击和 Projected Gradient Descent(PGD)攻击等,这些方法通过不同的优化目标和距离度量,在最小化扰动的同时实现攻击效果。此外,还包括通用逃避攻击和物理可实现攻击,前者构建通用扰动使多数图像被误分类,后者则在物理世界中实施攻击,如对人脸识别系统和道路标志检测分类器的攻击。
黑盒逃避攻击:攻击者在没有模型先验知识的情况下,通过与模型交互获取预测结果来生成对抗样本。主要分为基于分数的攻击和基于决策的攻击,前者利用模型的置信度分数进行优化,后者仅依据模型的最终预测标签来生成攻击样本。
攻击的可转移性:攻击者通过训练替代模型生成白盒攻击样本,并将其转移到目标模型上。研究发现不同模型的决策边界存在交集,这使得攻击样本具有可转移性,同时期望变换(Expectation over Transformation)方法可增强对抗样本在现实世界图像变换中的鲁棒性。
现实世界中的逃避攻击:在人脸识别系统、网络钓鱼网页检测和恶意软件分类等领域,逃避攻击已在现实中发生。如ID.me人脸识别服务遭遇的攻击,以及针对商业网络钓鱼网页检测器和恶意软件检测模型的攻击实例。
缓解措施:缓解逃避攻击面临诸多挑战,许多已提出的方法在面对强大攻击时效果不佳。目前主要的缓解方法包括对抗训练、随机平滑和形式验证。对抗训练通过在训练过程中添加对抗样本提高模型的鲁棒性,但会降低模型在干净数据上的准确率;随机平滑通过在模型预测中引入噪声来提供可证明的鲁棒性,但计算成本较高;形式验证利用形式化方法验证模型的鲁棒性,但存在可扩展性和计算复杂性的问题。
3、中毒攻击和缓解措施:中毒攻击发生在机器学习的训练阶段,对模型的性能和安全性造成严重影响。
可用性中毒:旨在降低模型的整体性能,通过在训练数据中注入恶意样本或修改训练过程实现。早期在网络安全领域,针对蠕虫签名生成和垃圾邮件分类的攻击是典型案例。攻击方式包括标签翻转、基于优化的方法以及利用模型可转移性生成攻击样本。对于这种攻击的缓解,可通过训练数据净化和鲁棒训练等方法,如数据聚类、异常值检测和使用鲁棒损失函数等技术。
针对性中毒:目标是改变模型对特定样本的预测。在干净标签设置下,攻击者通过影响函数、特征碰撞等技术生成中毒样本。这种攻击对模型的影响集中在特定样本上,且难以防御,目前主要通过保护训练数据、数据验证和使用差分隐私等方法来降低风险。
后门中毒:通过在训练数据中插入特定的后门模式,使模型在测试时对包含该模式的样本进行错误分类。这种攻击在计算机视觉、音频、自然语言处理和网络安全等领域都有应用。缓解措施包括训练数据净化、触发重建和模型检查与净化等技术,如NeuralCleanse 通过优化来确定后门模式,以及使用元分类器检测模型是否被植入后门。
模型中毒:直接修改训练好的模型,注入恶意功能。在联邦学习场景中,恶意客户端可通过发送恶意更新来破坏全局模型,导致可用性和完整性问题。供应链中的模型也可能受到攻击,如Dropout Attack通过操纵神经网络训练中的随机性来降低模型性能。针对模型中毒的缓解,主要采用拜占庭弹性聚合规则、梯度裁剪和差分隐私等方法,但这些方法在防御复杂攻击时存在一定的局限性。
现实世界中的中毒攻击:历史上曾发生针对早期AI聊天机器人(如 Tay.AI)、电子邮件垃圾邮件过滤器和恶意软件分类服务的中毒攻击事件。这些案例表明,在线学习模型由于持续更新,容易受到攻击者利用,攻击者通过精心构造的样本影响模型的正常运行。
4、隐私攻击和缓解措施:隐私攻击涉及对训练数据和模型信息的非法获取。
数据重建:攻击者试图从模型中恢复用户数据,如Dinur和Nissim提出的从线性统计中恢复用户数据的方法,以及后续针对神经网络模型的模型反演攻击。数据重建攻击的能力与神经网络对训练数据的记忆特性相关,这种攻击对个人隐私构成严重威胁。
成员推理:旨在判断某个数据样本是否属于模型的训练数据集。该攻击最早应用于基因组数据领域,目前在深度学习模型中也广泛存在。攻击者通过利用模型在训练样本和非训练样本上的不同表现,采用损失函数、影子模型等技术进行成员推理。
属性推理:攻击者试图学习训练数据的全局信息,如训练集中特定敏感属性的比例。这种攻击可在白盒和黑盒设置下进行,通过与模型交互并分析响应来推断属性信息。
模型提取:攻击者试图提取模型的架构和参数信息。在MLaaS场景中,攻击者可通过向模型发送查询来获取相关信息。虽然精确提取模型是困难的,但可以构建功能等效的模型。模型提取攻击常作为其他攻击的前奏,为后续更强大的攻击提供基础。
缓解措施:差分隐私是应对隐私攻击的重要技术,通过在算法输出中添加噪声,限制攻击者对个体记录的信息获取。然而,差分隐私在实际应用中需要谨慎设置隐私参数,以平衡隐私保护和模型效用。此外,还可通过限制用户查询、检测可疑查询、构建更强大的架构以及采用机器遗忘技术等方法来缓解隐私攻击,但这些技术都存在一定的局限性,需要在实践中不断改进和完善 。
二、生成式AI分类法
1、攻击分类
此部分对生成AI系统的攻击分类基于多种因素,包括攻击者试图破坏的系统属性(如可用性、完整性、隐私和误用)、学习阶段以及攻击者的知识和访问权限。与预测AI类似,生成AI攻击也涉及训练和推理阶段,但由于生成AI系统的独特性质,其攻击方式具有独特之处。
GenAI学习阶段:GenAI的开发流程包括预训练、微调等阶段。在训练阶段,基础模型常使用大规模数据进行预训练,数据多从互联网采集,这使得数据易受污染,同时第三方提供的模型也可能存在被恶意篡改的风险。在推理阶段,GenAI模型和应用因数据与指令通道未分离,容易受到恶意指令注入的攻击,如通过提示注入(Prompt Injection)来改变模型行为。
攻击者目标和能力:攻击者目标与预测AI类似,包括可用性破坏(干扰系统输出或功能)、完整性违反(使系统产生符合攻击者意图的错误输出)、隐私泄露(获取系统敏感信息)以及特定于GenAI的误用启用(绕过系统限制产生有害输出)。攻击者能力主要有训练数据控制(用于数据中毒攻击)、查询访问(进行提示注入、提示提取和模型提取攻击)、资源控制(实施间接提示注入攻击)和模型控制(用于模型中毒攻击和微调规避攻击)。
2、供应链攻击和缓解措施
生成AI供应链攻击主要针对数据和模型,利用系统对大规模数据和第三方组件的依赖进行攻击。
数据中毒攻击:随着GenAI模型性能对数据规模的依赖增加,攻击者可通过操纵训练数据来影响模型行为。例如,攻击者可控制训练数据集中的URL内容,插入恶意数据,进而影响模型生成的内容,如使代码建议模型生成不安全代码。这种攻击可能在模型训练的各个阶段发生,包括预训练、指令调整和强化学习从人类反馈阶段。
模型中毒攻击:攻击者可提供恶意设计的预训练模型,其中可能包含后门或其他恶意功能,即使下游用户对模型进行微调或添加安全训练措施,这些恶意后门仍可能持续存在并被攻击者利用。
缓解措施:为应对供应链攻击,可采用多种缓解策略。在数据方面,通过验证网络下载的完整性,如检查数据的哈希值,可防止数据被恶意篡改;进行数据过滤,尝试识别并移除中毒样本,但在大规模训练数据中检测中毒数据具有挑战性。在模型方面,利用机械可解释性方法可帮助识别模型中的后门特征;在推理时检测并对抗触发攻击的行为;将模型视为不可信组件,设计应用时降低攻击者控制模型输出带来的风险。
3、直接提示攻击和缓解措施
直接提示攻击由系统的主要用户通过查询访问发起,旨在绕过模型的安全限制或获取敏感信息。
攻击技术:攻击者使用多种技术进行直接提示攻击,包括基于优化的攻击(通过设计目标函数和使用梯度或搜索方法寻找能引起特定行为的对抗输入,如寻找能使模型产生肯定响应的输入)、手动方法(如竞争目标和不匹配泛化,包括前缀注入、拒绝抑制、风格注入和角色扮演等技巧,以及特殊编码、字符变换、单词变换和提示级变换等策略)和自动化模型红队攻击(利用攻击者模型、目标模型和判断器,通过迭代生成攻击提示,且这些提示可能具有转移性)。
信息提取:攻击者通过这些攻击手段试图提取多种敏感信息,如训练数据中的个人身份信息(通过在训练数据中插入可识别的样本并利用模型的记忆特性进行提取)、提示和上下文信息(如通过PromptStealer等方法从模型输出中提取提示信息,用于攻击其他模型或获取敏感数据)以及模型信息(通过向模型发送特定查询来推断模型的架构和参数)。
缓解措施:为减轻直接提示攻击的风险,可在模型开发和部署的多个阶段采取措施。在训练阶段,进行安全训练、对抗训练等可增加攻击难度;在评估阶段,通过自动化漏洞评估、专家红队测试和设置漏洞赏金计划等方式,可检测模型的脆弱性;在部署阶段,采用提示指令和格式化技术(如清晰分离系统指令和用户提示)、检测和终止有害交互(利用基于LLM的检测系统识别有害输入或输出)、提示窃取检测(通过比较模型输出和已知提示来检测攻击)、输入修改(如改写或重新标记用户输入)、聚合多个提示的输出(如SmoothLLM方法)、监控和响应(记录用户活动并对恶意行为做出反应)以及设置使用限制(如限制用户对推理参数的访问和模型生成的丰富度)等策略。此外,还可采用间接缓解措施,如训练数据清理(去除敏感或有毒数据)、遗忘(尝试减少模型中有害知识或能力)和水印(标记生成内容以追踪来源和检测恶意使用),但这些技术都存在一定的局限性。
4、间接提示注入攻击和缓解措施
间接提示注入攻击通过控制模型与之交互的外部资源,间接注入系统提示,从而影响模型行为,导致可用性、完整性和隐私方面的问题。
可用性攻击:攻击者通过操纵资源向GenAI模型注入提示,干扰模型为合法用户提供服务的能力。例如,让模型执行耗时任务、禁止使用某些API或破坏输出格式,使模型无法正常工作或特定功能受限。
完整性攻击:攻击者利用恶意资源使模型生成不可信内容,偏离正常行为以符合攻击者的目标。常见手段包括越狱(通过类似直接提示注入的技术,如使用优化或手动方法替换系统提示)、执行触发器(通过优化生成可在模型处理流程中持续存在的执行触发器)、知识库中毒(如PoisonedRAG攻击,操纵RAG系统的知识库以诱导特定输出)、注入隐藏(使用隐藏或编码技术隐藏注入指令,增加检测难度)和自我传播注入(使模型成为传播攻击的载体,如发送恶意邮件)。
隐私攻击:攻击者通过间接提示注入攻击获取模型或用户的敏感信息,如迫使模型泄露受限资源中的信息(如邮件客户端模型转发用户邮件)或诱导用户透露信息并将其泄露给攻击者(如通过诱导用户输入敏感信息并发送给攻击者控制的URL)。
缓解措施:针对间接提示注入攻击,可采用多种缓解技术。在训练阶段,进行任务特定的微调或训练模型遵循分层信任关系的提示,可增强模型对攻击的抵抗力;在检测方面,使用基于LLM的防御系统可检测攻击;在输入处理方面,过滤第三方数据源的指令、设计提示以帮助模型区分可信和不可信数据或指示模型忽略不可信数据中的指令,都有助于减少攻击的影响。此外,应用设计者可采用多LLM架构或限制模型与潜在不可信数据源的交互接口,并加强用户教育,提高对间接提示注入攻击风险的认识。
5、代理的安全性和AML漏洞基准测试
随着GenAI模型在代理系统中的广泛应用,代理的安全性成为重要问题。由于代理依赖GenAI系统进行决策和行动,容易受到各种攻击,如直接和间接提示注入攻击,这些攻击可能导致代理执行恶意代码或泄露数据。目前针对代理安全性的研究仍处于早期阶段,但已有研究开始评估代理对特定AML攻击的脆弱性,并提出相应的干预措施。此外,为评估模型对AML攻击的脆弱性,存在多个公开可用的基准测试,如JailbreakBench、AdvBench、HarmBench、StrongREJECT、AgentHarm、Do-Not- Answer和TrustLLM等,以及开源工具如Garak和PyRIT,它们为开发者提供了评估模型安全性的有效手段。
三、关键挑战
1、AML的关键挑战
可信AI属性间的权衡:AI系统的可信性取决于多个属性,如准确性、鲁棒性、公平性和隐私性等,但这些属性之间往往存在权衡关系。例如,单纯优化准确性可能导致模型在对抗攻击下表现不佳,降低鲁棒性;增强模型的隐私保护可能会对其公平性产生负面影响。研究发现,在一些情况下,提高模型的鲁棒性会导致其在正常数据上的准确性下降,这种权衡使得难以同时最大化AI系统的多个属性。目前,多目标优化和帕累托最优的概念为解决这一问题提供了思路,但在实际应用中,组织仍需根据具体的AI系统和使用场景来决定优先考虑哪些属性。
对抗鲁棒性的理论限制:由于缺乏理论上安全的机器学习算法,设计有效的对抗攻击缓解措施具有挑战性。当前许多缓解技术是基于经验的,缺乏严格的理论证明。例如,检测对抗样本与实现鲁棒分类一样困难,因为对抗样本可能与正常数据分布相似,难以区分。此外,形式方法在验证神经网络安全性方面具有潜力,但由于计算成本高、难以处理复杂模型以及无法适应AI系统代码的快速变化等问题,尚未得到广泛应用。在实际应用中,这些理论限制可能导致AI系统在面对新型攻击时缺乏足够的防御能力。
评估问题:AML缓解措施的评估面临诸多困难。首先,缺乏可靠的基准使得不同研究的结果难以比较,因为它们可能基于不同的假设和方法。其次,新的缓解措施不仅要应对已知攻击,还要考虑未知攻击,这需要进行严格的对抗测试,但这种测试往往困难且耗时,导致许多新措施的评估不够严谨。此外,在评估新的缓解措施时,应同时考虑多个属性之间的权衡,而不是孤立地评估每个属性,这进一步增加了评估的复杂性和成本。
2、讨论
规模挑战:数据在训练模型中至关重要,GenAI的发展趋势是使用更大的模型和数据集。然而,数据的分散性和缺乏集中控制使得数据难以管理,增加了数据中毒攻击的风险。例如,开源数据中毒工具虽旨在保护艺术家版权,但可能被恶意利用。为应对这一挑战,可采用数据和模型消毒技术,结合密码学方法进行数据来源和完整性验证;同时,开发鲁棒的训练技术以提供理论上的安全保证,但这些方法在处理大规模复杂模型时仍面临挑战,需要进一步研究和改进。
供应链挑战:AML领域不断出现难以检测的新攻击,AI模型的中毒攻击可能在安全训练后仍然存在,并可被攻击者按需触发。对开源依赖项的攻击风险在AI环境中尤为突出,因为组织和研究人员可能无法像审查开源软件那样审计模型权重中的漏洞。此外,信息理论上不可检测的木马攻击增加了 AI 供应链风险管理的难度。为解决这些问题,DARPA和NIST创建了TrojAI项目,旨在研究检测和防范此类攻击的技术。
多模态模型:多模态模型在许多任务中表现出强大的性能,但它们在面对对抗攻击时并不一定更具鲁棒性。研究表明,信息在不同模态之间的冗余并不能有效提高模型对单一模态攻击的抵抗力,而且同时攻击多个模态的方法已经被提出。此外,随着模态组合的增加,对抗训练的成本会显著提高。因此,需要进一步研究如何利用多模态模型的冗余信息来增强其对抗攻击的鲁棒性。
量化模型:量化技术用于在边缘平台高效部署模型,但量化模型会继承原始模型的漏洞,并引入新的弱点,使其更容易受到对抗攻击。例如,计算精度的降低会放大误差,影响模型的对抗鲁棒性。虽然针对预测AI模型有一些缓解技术,但对GenAI模型的量化影响研究还不够深入。组织在部署量化模型时,需要持续监控其行为,以确保安全。
基于AML的风险管理:随着AML攻击的多样性增加,组织在开发和使用AI系统时面临如何决策的问题。虽然一些模型开发者和应用构建者采用了红队测试等方法来评估对抗风险,但许多AML缓解措施缺乏理论保证,存在局限性。这意味着组织需要考虑除对抗测试之外的更多实践和措施来管理风险,例如结合其他安全领域的最佳实践,以及在设计AI系统时考虑潜在的攻击场景,以提高系统的安全性和鲁棒性。
AML与其他AI系统特征的关系:理解AML攻击与其他AI系统期望特征(如安全性、可靠性和可解释性)之间的关系至关重要。管理AI系统的安全需要结合AML领域的缓解措施和网络安全领域的最佳实践,但目前还不清楚是否存在超出这两个领域范围的其他关键考虑因素。此外,AML的鲁棒性在AI安全和实现可信AI系统的其他方面也起着重要作用,因此需要更精确地将AML攻击和缓解措施与实现这些目标的过程相关联,这是一个持续研究的领域。
转载链接:https://www.tbtguide.com/c/mypt/gwxw/595271.jhtml
关注“广东技术性贸易措施”,获取更多服务。
来源:www.gdtbt.org.cn