All 215

AI 范式雷达:《用形式化逻辑给 AI Agent 装上可证明的安全护栏》

如果你正在构建 AI 智能体,你可能已经发现一个令人不安的事实:语义护栏可以被绕过。无论你的提示词工程做得多精细,总有人能找到一种措辞方式让 Agent 执行它本不该做的事。中国科学技术大学 Benlong Wu 等人最近发表的论文《Provably Secure Agent Guardrail via ePCA》提出了一种根本性的范式转移——不再依赖经验语义匹配,而是用一阶逻辑将 Agent 意图形式化为数学约束,由 SMT 求解器进行确定性验证。当不安全行为被映射为逻辑悖论时,Agent 在逻辑层面陷入不可达状态死锁。实验结果显示:零攻击成功率、零误报率,核心计算延迟仅 0.44ms。

In AI, ParadigmRadar, 3 mins read

AI 范式雷达:《OrchRM——多智能体编排的自监督奖励建模新范式》

在多智能体系统(MAS)中,编排器决定了多个子代理如何协作完成任务。传统方法训练编排器需要昂贵的人工标注或完整的子代理 Rollout——每次评估都需要让所有子代理完整执行一遍,Token 消耗呈指数级增长。新加坡国立大学和 Sea AI Lab 联合发表的论文《Reward Modeling for Multi-Agent Orchestration (OrchRM)》提出了一种自监督奖励建模框架,利用多智能体执行过程中的中间产物构建胜负对,直接在 Bradley-Terry 模型上进行奖励学习。该方法在编排层面操作而非子代理层面,使 Token 使用效率提升最高 10 倍,同时在数学推理、网页问答和多跳推理等任务上将 MAS 测试时扩展性能提升最高 8%。

In AI, ParadigmRadar, 4 mins read

AI 范式雷达:《Agent安全新范式:从静态对齐到动态诊断护栏》

在 R-judge 基准测试中,一个仅需约 1000 个样本进行 SFT 训练的 7B 参数模型达到了 GPT-5.4 级别的安全诊断性能。这不是渐进式优化——当 Agent 获得工具调用权限后,安全对齐从”模型层面的静态分类”升级为”系统层面的动态护栏”。

In AI, ParadigmRadar, 3 mins read

AI 范式雷达:《Agent评估新标准:用A2A+MCP协议实现基准即Agent》

在评估 M 个 Agent 系统如何在 N 个基准上表现时,传统方法需要编写 N×M 次定制化集成代码——每个基准都需要为每个 Agent 单独适配接口、处理格式差异、管理认证流程。当 Agent 生态以指数级增长时,这种线性扩展的集成成本变得不可持续。

In AI, ParadigmRadar, 6 mins read

AI 范式雷达:《从端到端成功率到细粒度规划诊断》

在 12 个主流多模态大语言模型(MLLM)中,端到端任务成功率最高的模型在”不可解任务识别”测试中的正确拒绝率仅为 34.7%。这意味着超过三分之二的情况下,即使是最强的 Agent 也会对一个根本无法完成的任务盲目尝试——浪费计算资源、暴露用户数据,甚至产生有害输出。

In AI, ParadigmRadar, 3 mins read

一分钟读论文:《选择性形式化与门控执行》

蒙特利尔大学 Mila 研究所的论文《SKILL.nb: Selective Formalization and Gated Execution for Durable Agent Workflows》,提出了一种面向智能体工作流的生命周期治理框架,通过选择性形式化决策、门控条件执行和笔记本式版本化三个机制,将工作流的可靠性从”一次成功”扩展到”持续做对”。

In AI, Agent, 1 min read

一分钟读论文:《干预支持的静默失败错误归因》

Google DeepMind的论文《REFLECT: Intervention-Supported Error Attribution for Silent Failures in LLM Agent Traces》,提出了一种将诊断、测试与精炼整合为闭环的错误归因方法。该方法通过在静默失败场景下对候选错误步骤施加干预补丁并受控重放轨迹,利用已验证的结果翻转作为对比证据来精炼最终归因,在四个多跳推理定位基准上取得了最高准确率。

In AI, Agent, 1 min read

AI 范式雷达:《自适应潜在推理:让 Agent 少想但想深》

在 Tool Use 基准上减少 84.6% 的生成 Token,同时保持准确率不降反升。这不是渐进式优化,而是推理范式的结构性转变。

In AI, ParadigmRadar, 5 mins read

一分钟读论文:《自适应潜在智能体推理》

康奈尔大学、UC Davis 和 UC Riverside 研究者的论文《Adaptive Latent Agentic Reasoning》,提出了一种双模式推理框架,让智能体在常规决策步使用紧凑的潜在推理、在困难决策时切换到显式思维链,工具使用场景下 Token 节省率高达 84.6%。

In AI, Agent, 1 min read

AI 范式雷达:《自适应潜在推理:让 Agent 少想但想深》

在 Tool Use 基准上减少 84.6% 的生成 Token,同时保持准确率不降反升。这不是渐进式优化,而是推理范式的结构性转变。

In AI, ParadigmRadar, 3 mins read

Featured