Page 2 of 22 for 一分钟读论文

AI 范式雷达：《用形式化逻辑给 AI Agent 装上可证明的安全护栏》

如果你正在构建 AI 智能体，你可能已经发现一个令人不安的事实：语义护栏可以被绕过。无论你的提示词工程做得多精细，总有人能找到一种措辞方式让 Agent 执行它本不该做的事。中国科学技术大学 Benlong Wu 等人最近发表的论文《Provably Secure Agent Guardrail via ePCA》提出了一种根本性的范式转移——不再依赖经验语义匹配，而是用一阶逻辑将 Agent 意图形式化为数学约束，由 SMT 求解器进行确定性验证。当不安全行为被映射为逻辑悖论时，Agent 在逻辑层面陷入不可达状态死锁。实验结果显示：零攻击成功率、零误报率，核心计算延迟仅 0.44ms。

In AI, ParadigmRadar, 3 mins read

AI 范式雷达：《OrchRM——多智能体编排的自监督奖励建模新范式》

在多智能体系统（MAS）中，编排器决定了多个子代理如何协作完成任务。传统方法训练编排器需要昂贵的人工标注或完整的子代理 Rollout——每次评估都需要让所有子代理完整执行一遍，Token 消耗呈指数级增长。新加坡国立大学和 Sea AI Lab 联合发表的论文《Reward Modeling for Multi-Agent Orchestration (OrchRM)》提出了一种自监督奖励建模框架，利用多智能体执行过程中的中间产物构建胜负对，直接在 Bradley-Terry 模型上进行奖励学习。该方法在编排层面操作而非子代理层面，使 Token 使用效率提升最高 10 倍，同时在数学推理、网页问答和多跳推理等任务上将 MAS 测试时扩展性能提升最高 8%。

In AI, ParadigmRadar, 4 mins read