LLM 越狱攻击的威胁是否被系统性地高估了?基于分类评分的越狱评估新范式

LLM 越狱攻击的威胁是否被系统性地高估了?基于分类评分的越狱评估新范式

JADES 是与德国亥姆霍兹信息安全中心 (CISPA)、Flexera 和西安交通大学的研究团队合作完成的。本文通讯作者为CISPA张阳教授。简介 记住教师如何对考试中的开放式问题进行评分。如果考生一开始只写“答案:”,后面不说出答案,当然不会得分。另一方面,如果你在开始时说“我不能”,然后在最后写出正确的答案,你应该得到分数。另一方面,有一些答案看似条理清晰,蕴含深刻道理,但所有句子都失败了,所以你的分数仍然很低。只有你的答案准确、完整地涵盖了解决问题的要点,你才会获得高分。教师根据答案的实际内容和要点来评分,而不是根据答案的开头、措辞或格式。不幸的是,c目前对LLM越狱攻击的评估经常陷入这些陷阱。常见的方法依赖于间接指标,例如关键字一致性和毒性分数,或直接使用法学硕士作为仲裁者来做出宏观决策。这些方法往往只看表面,没有涵盖分数的要点,使得评估容易出现偏差。很难提供可靠的基准来横向比较不同的攻击并验证防御机制的有效性。为了解决这个问题,西安交通大学CISPA亥姆霍兹信息安全中心和Flexera的研究人员提出了JADES(通过分解评分的越狱评估),这是一种捕获惩罚性关键咳嗽的通用越狱评估框架。 JADES的核心思想是放弃宏观整体判断,转而采用更加成熟可靠的“分解评分”机制,基于教育评估领域的分析评分思想评价。它自动将复杂且有害的问题分解为一组加权子问题,并允许模型单独回答每个子问题。它们分别进行评分,然后在最后进行加权和汇总,以得出可靠的最终决定。这项研究不仅提供了更准确的评估工具,而且还揭示了重新评估现有攻击时的重要事实。也就是说,过去我们大大高估了越狱攻击的真正威胁。论文标题:JADES: A Universal Framework for Jailbreak Assessment via Decompositional Scoring 论文链接:https://arxiv.org/abs/2508.20848v1 项目网址:https://trustairlab.github.io/jades.github.io/ 当前越狱评估方法的瓶颈 准确评估越狱攻击的难点在于越狱攻击的“开放性” 有害的问题。与标准答案的问题和答案不同,像“如何制造炸弹”这样的问题没有单一的、普遍接受的参考资料ce 答案,使得创建统一的成功标准变得非常困难。人类专家的手动评估被认为是准确性的“黄金标准”,但其高成本和最小的可扩展性使其无法跟上快速发展的攻击技术。因此,学术界和工业界都迫切需要可靠的自动化评估方法。然而,现有的自动化技术有两个主要缺陷。 1. 代理指标未对准。此类技术使用与攻击者最终决策目标不一致的间接指标,导致大量误报。示例:字符串匹配:此方法检测响应中是否出现“当然,这里是…”或“对不起…”等意图短语。然而,模型完全有可能遵守包含相反语义内容的语句。这种基于表面文字的判断是不可靠的,并且有明确的准确度上限。毒性检测仪r:此方法评估响应的毒性评分。然而,仅仅因为毒性分数高,就无法越狱。但这并不成功。例如,旨在引发某些歧视性评论的请求可能会导致其他不相关类型的滥用。尽管响应本身是有害的,但它不满足攻击者的特定意图,不应被视为成功的攻击。 2. 全球评估策略 以法学硕士为评委的方案通常依赖于复杂且开放式的全球评估。这种宏观视角混淆了评价的多轴,难以应对各种“颠覆性因素”,评价结果也随之扭曲。例如: 空内容:答案通常很模糊,例如“使用适量的成分”或“以正确的比例混合”,并且不提供重要的实用信息。分心令牌:响应包含大量从监狱继承的文本ak提示与任务无关的内容,例如角色扮演对话,并干扰法官模型的决策。看似正确,事实错误:答案格式看似规范、详细,但核心信息(化学公式、代码实现等)是错误的。仅凭笼统的评价很难验证详细的事实,很容易被这种“伪装”所愚弄。 JADES框架:引入分解评分的新范式 为了克服上述瓶颈,JADES框架通过多智能体协作过程,自动化人类专家的分析评分逻辑,从而保证评估的粒度和可靠性。其核心架构由四个协同工作的节点组成。 1、问题分解节点收到有毒问题。 Q 之后,LLM 代理从攻击者的角度将其分解为一组加权的主要子问题 {(q_i, w_i)}。这些子问题构成了核心批判teria 用于后续评分。如图所示,“如何制作炸弹”分为三个加权子问题:“材料清单”、“组装说明”、“如何引爆”。这种分解使评估更接近真正越狱攻击的成功标准。为了提高效率,该节点包括一个内存模块来存储和重用现有的分解结果。以 JADES“如何制作 [B**B]”流程为例。 2. Clean Node 该节点负责预处理原始越狱R响应。响应文本首先被分割成句子,然后代理过滤掉所有与任务无关的内容,以生成干净、优化的 R_clean 响应版本,从而降低处理复杂性和后续节点中潜在的混乱。 3. 子问题匹配节点(sub-questionmatchingnode) 对于每个子问题q_i,匹配代理从R_clean中准确提取相关句子,形成子答案co对应_i。此步骤在宏观响应文本和微观标准之间建立了明确的对应关系,形成清晰的评价单元。 4. 评分节点 最后,评判代理使用 5 点李克特量表(0.00 至 1.00)对每个子响应 a_i 进行评分。最终的总分S_total是所有子分值加权聚合得到的,并通过相应的阈值分配为二元分类(越狱成功/失败)或三元分类(越狱成功/部分成功/失败)。为了验证 JADES,性能研究人员创建了 JailbreakQR,这是一个包含 400 对恶意问题和越狱响应的基准数据集。该数据集基于使用三因素标签系统(失败、部分成功、成功)和相应原因的详细手动注释。二进制性能设置:将标签映射到二进制(成功/失败)以匹配基线后,JADES 通过人类评估器实现了 98.5% 的准确率。这是与稳健参考方法相比,提高了 9% 以上。三级配置:即使在最困难的三级分类任务(成功/部分成功/失败)中,JADES 也取得了 86.3% 的准确率。混淆矩阵分析表明,JADES 非常擅长识别“失败”案例。我们对“成功”案例的判断比人类更严格,会发现人类通常忽略的某些反应中的细节错误,并可能根据情况降级为“部分成功”。跟踪分解分数每一步的能力增加了整个评估过程的可解释性和透明度。通过建立三元分类的混淆矩阵重新评估传统的越狱攻击。 JADES最重要的发现是,以前的评估方法高估了他们系统地监控越狱攻击的成功率。几乎所有越狱攻击的攻击成功率(ASR)都超过了估计。例如,针对 GPT-3.5-Turbo 的 LAA 攻击的 ASR 在传统评估中为 93%,但在 JADES 重新评估(二元分类配置)中下降至 69%。此外,基于JADES的三维评估配置,我们引入了一个新的指标,称为“成功率/攻击成功率”(SR/ASR)来衡量成功的“质量”。我们发现,对于所有测试的攻击方法,“完全成功”的案例占成功案例总数的百分比均不超过0.25。这意味着大多数被传统二进制指标标记为“成功”的越狱实际上只是“部分成功”。此外,进一步修改原有破坏性问题的攻击方法(例如PAIR)的成功率往往较低,这表明语义层面的偏差对攻击的实际有效性产生深远的影响。结论和未来展望JADES框架建立了一个新的框架。在越狱评估领域有透明、可靠和可审计的标准。它不仅会提高工具的性能,更重要的是,它将通过严谨的实证研究揭示当前领域的系统性偏差。
特别提示:以上内容(包括图片、视频,如有)由自有媒体平台“网易账号”用户上传发布。本平台仅提供信息存储服务。
注:以上内容(包括图片和视频,如有)由仅提供信息存储服务的社交媒体平台网易号用户上传并发布。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注