开篇
你有没有想过?一个在英文环境下安全合规的AI模型,到了其他语言和文化环境中,可能会出现严重的安全漏洞?
当前主流的AI安全测试基准大多是英文-centric的,直接翻译成其他语言时,往往会忽略当地的文化背景、社会规范和法律法规,导致大量安全盲点。ICLR 2026入选论文《CAGE: A Framework for Culturally Adaptive Red-Teaming Benchmark Generation》提出了突破性的解决方案,能够系统性地生成适配不同文化背景的红队测试基准。
核心突破
1. 首次系统性解决跨文化AI安全测试难题
现有红队测试基准在适配新语言时,通常采用直接翻译的方式,完全忽略了文化和法律背景的差异,导致无法捕捉到根植于当地文化的社会技术漏洞。CAGE框架首次实现了对抗性意图的跨文化迁移,能够生成符合当地文化特征的真实威胁测试用例,而不是简单的越狱测试。
2. Semantic Mold创新架构,分离对抗结构与文化内容
CAGE的核心是”语义模具”(Semantic Mold)技术,能够将提示词的对抗性结构与文化内容分离开来。这种设计使得框架可以保留原始红队提示的攻击意图,同时替换成符合目标文化背景的内容,生成更加真实有效的测试用例。
3. 性能提升显著,数据支撑明确
研究团队以韩语为测试场景,构建了KoRSET基准数据集,实验结果显示:
- CAGE生成的韩语提示在Llama-3.1模型上的攻击成功率(ASR)达到43.8%,远高于直接翻译方法的28.2%和LLM适配方法的32.4%
- 对于英文-centric训练的Llama-3.1模型,韩语测试场景下的攻击成功率比英文场景高出35.2个百分点,充分暴露了英文-centric安全训练的缺陷
- 而在同时具备深度中英文文化知识的EXAONE-3.5模型上,跨文化攻击成功率差异仅为1.2%,证明了文化知识对于安全对齐的重要性
4. 可扩展的解决方案,支持多文化适配
CAGE框架提供了标准化的工作流,可以快速扩展到其他语言和文化场景,为构建全球通用的AI安全评估体系提供了技术基础。研究团队已经开源了框架代码和韩语基准数据集,方便全球研究者贡献更多语言版本。
技术亮点
CAGE框架的创新之处在于它没有采用传统的翻译或模板生成方法,而是通过”语义模具”技术实现了对抗性意图的抽象和迁移。这种设计使得生成的测试用例既保留了原始的攻击意图,又完全符合目标文化的语境,能够有效发现现有方法无法检测到的安全漏洞。
同时,CAGE的评估方法不仅关注攻击成功率,还区分了”特异性”和”文化知识”对攻击效果的影响,为理解AI模型的跨文化安全表现提供了更深入的视角。
产业价值
CAGE框架对于AI产业具有重要的实际意义:
- 对于跨国企业来说,它提供了标准化的跨文化AI安全测试方法,能够确保AI产品在不同国家和地区都符合当地的法律法规和文化规范
- 对于模型开发者来说,它揭示了英文-centric训练的局限性,指导开发者在安全对齐阶段充分考虑多文化背景
- 对于监管机构来说,它为制定全球统一的AI安全评估标准提供了技术参考
- 对于AI安全研究社区来说,它开辟了跨文化安全测试的新方向,推动AI安全评估从单语言向多语言、多文化方向发展
论文信息
标题:CAGE: A Framework for Culturally Adaptive Red-Teaming Benchmark Generation 作者:Chaeyun Kim, YongTaek Lim, Kihyun Kim, Junghwan Kim, Minwoo Kim 发布机构:首尔国立大学VIP实验室、SelectStar 会议:ICLR 2026(国际学习表征大会) 链接:https://openreview.net/forum?id=gCm55KYiqz arXiv:https://arxiv.org/abs/2602.20170