2025年12月25日,日本总务省发布《确保人工智能安全的技术措施指南(草案)》(以下简称《指南》),旨在通过明确具体的技术对策,防止因恶意操作导致的机密信息泄露、系统异常变更或停机,从而确保AI系统的安全性与可靠性,为社会经济活动的平稳运行提供技术保障。
《指南》将社会应用最为广泛且威胁日益显著的大规模语言模型(LLM)及其集成系统作为重点防御对象。针对LLM面临的核心威胁,文件详细界定了提示词注入攻击(Prompt Injection)和拒绝服务攻击(DoS)两大类型。提示词注入攻击通过细工构造的输入诱导模型产生不正当输出,包括直接篡改系统设定或通过污染外部引用的数据实施间接注入 ;而DoS攻击则通过发送需要庞大计算资源的请求,意图耗尽系统资源导致响应瘫痪或产生经济损失。
为构建多维技术对策体系,《指南》根据责任主体提出了覆盖开发到应用全生命周期的防御范例。在开发者侧,重点通过基于人类反馈的强化学习(RLHF)使模型内化安全标准,并实施“指示阶层化”以确保系统指令具备最高优先级。在提供者侧,则强调构建多层防护机制,包括强化系统提示词以明确禁止事项、实施“护栏”(Guardrail)机制对输入输出进行实时校验,以及通过标签和分段技术严格隔离用户输入与外部参考数据,防止模型被恶意篡改的信息误导。
来源:www.tbtguide.com