AI 范式雷达:《让 Agent 看见代码仓库——多模态表示如何重塑编码代理》
如果你正在构建一个基于 LLM 的代码修复 Agent,你可能已经注意到一个反直觉的现象:给模型”看”代码仓库的结构图,反而让它变得更笨了。这不是你的错觉——慕尼黑工业大学和达姆施塔特大学的研究团队在 SWE-bench Verified 上做了系统实验,发现纯视觉模式让所有模型的修复准确率显著下降,GPT-5-mini 从 55.0% 跌至 41.4%,Doubao 更是暴跌至 16.9%。但混合文本加视觉的模式却实现了双赢:Token 成本降低最高达 26%,同时修复准确率持平或微升。这篇文章将解析 SeeRepo 的核心发现,并带你理解多模态表示在编码 Agent 中的正确打开方式。
AI 范式雷达:《HarnessFix——从失败轨迹到可靠 Agent 的自动修复》
In AI, ParadigmRadar, 2 mins read一分钟读论文:《AgentCIBench:Computer-Use Agent的跨上下文隐私泄露》
In AI, Security, 1 min read一分钟读论文:《通过智能体轨迹解剖模型行为》
In AI, Agent, 1 min read一分钟读论文:《Scratch Copilot:用 AI 支持青少年创意编程》
Google DeepMind 研究科学家和华盛顿大学教授合作的一篇论文《Scratch Copilot: Supporting Youth Creative Coding with AI》,首次提出了专门为儿童设计的 AI 编程助手——Scratch Copilot,这是一个集成在类 Scratch 环境中的 AI 助手,为青少年提供创意编程支持。
Read More一分钟读论文:《被掏空的一天:软件工程师的日常》
作为团队的 Leader,如何通过改进流程和⼯具,并最终提⾼团队⽣产⼒呢?可以参考微软研究院和英国伦敦大学、瑞士苏黎世大学信息学系合著的论文《Today was a Good Day: The Daily Life of Software Developers》。该论文分析了微软工程师的5,971份问卷结果,发现工程师「良好」和「典型」的工作日是怎么样,并总结了使良好的工作日成为典型的建议:
Read MoreAll
AI 范式雷达:《让 Agent 看见代码仓库——多模态表示如何重塑编码代理》
如果你正在构建一个基于 LLM 的代码修复 Agent,你可能已经注意到一个反直觉的现象:给模型”看”代码仓库的结构图,反而让它变得更笨了。这不是你的错觉——慕尼黑工业大学和达姆施塔特大学的研究团队在 SWE-bench Verified 上做了系统实验,发现纯视觉模式让所有模型的修复准确率显著下降,GPT-5-mini 从 55.0% 跌至 41.4%,Doubao 更是暴跌至 16.9%。但混合文本加视觉的模式却实现了双赢:Token 成本降低最高达 26%,同时修复准确率持平或微升。这篇文章将解析 SeeRepo 的核心发现,并带你理解多模态表示在编码 Agent 中的正确打开方式。
In AI, ParadigmRadar, 3 mins readAI 范式雷达:《HarnessFix——从失败轨迹到可靠 Agent 的自动修复》
如果你正在构建 LLM Agent,你可能已经发现一个令人沮丧的事实:大多数 Agent 失败不是模型不够聪明,而是执行环境(Harness)本身有缺陷。 传统方法只告诉你”哪里失败了”,但从不告诉你”怎么修好它”。arXiv:2606.06324 提出的 HarnessFix 首次实现了从失败轨迹到自动修复的完整闭环——它将碎片化的执行证据编译为标准中间表示,精确归因到具体步骤和基础设施层,并生成可直接应用的修复操作符。本文将带你理解 HTIR 的核心设计,以及它如何改变 Agent 可靠性的工程范式。
In AI, ParadigmRadar, 2 mins read一分钟读论文:《AgentCIBench:Computer-Use Agent的跨上下文隐私泄露》
德国达姆施塔特大学UKP实验室和ATHENE网络安全研究中心合作的一篇论文《Capable but Careless: Do Computer-Use Agents Follow Contextual Integrity?》,首次将Contextual Integrity理论引入AI Agent评估领域,发现Computer-Use Agent在执行跨应用任务时存在严重的上下文泄露问题:高能力代理反而是最严重的隐私泄露者。在15个前沿代理中,80%在超过一半的测试场景中出现信息泄露,平均泄露率达到67.9%。
In AI, Security, 1 min read一分钟读论文:《通过智能体轨迹解剖模型行为》
堪萨斯大学的一篇论文《Dissecting model behavior through agent trajectories》,首次将意图-执行差距(intent-execution gap)形式化为可测量的系统偏差。通过分析138k条智能体轨迹、覆盖Claude、Gemini、GPT、Grok、Qwen五大模型家族,论文证明:AI Agent性能不仅是建模问题,更是系统问题——模型假设与harness行为之间的差距会阻止模型能力的充分转化。
In AI, Agent, 1 min read一分钟读论文:《当工具失败时:LLM智能体的动态重规划与异常恢复基准测试》
腾讯优图实验室、中山大学与清华大学合作的一篇论文《When Tools Fail: Benchmarking Dynamic Replanning and Anomaly Recovery in LLM Agents》,首次系统性地评估了LLM智能体在工具失败场景下的动态重规划能力。现有基准测试几乎全部在理想化的”快乐路径”上评估工具集成推理,忽视了真实世界中的工具失败场景。论文发现动态重规划是独立于模型缩放和提示工程的独特瓶颈:容错能力的增长仅为基本任务执行的1/3.66倍,隐式语义失败下扰动恢复率暴跌约37%。
In AI, Agent, 1 min read一分钟读论文:《LedgerAgent:面向策略遵循的工具调用智能体的结构化状态管理》
亚利桑那州立大学与亚利桑那大学合作的一篇论文《LedgerAgent: Structured State for Policy-Adherent Tool-Calling Agents》,提出了一种推理时方法解决工具调用智能体中任务状态隐式编码在提示词中的根本问题。传统智能体的观察结果、工具返回和政策指令全部放在提示词中,导致两种常见故障:智能体检索到正确事实但后续基于过时信息做决策,或语法上有效的工具调用违反依赖当前状态的领域策略。论文通过类型化账本与政策门控器两个确定性组件实现零额外token开销的状态一致性保障。
In AI, Agent, 1 min read一分钟读论文:《重新思考还是延长预算?面向推理预算的选择性验证》
弗吉尼亚理工大学的 Sajib Acharjee Dip、Dawei Zhou 和 Liqing Zhang 发表的论文《重新思考还是延长预算?面向推理预算的选择性验证》,揭示了推理时 Token 分配中的一个反直觉发现:始终验证初始答案不仅浪费计算资源,在某些场景下还会降低准确率。他们提出的 SEVRA(Selective Verification for Reasoning Allocation)框架将验证决策从固定策略升级为服务层控制器,在 MathFive 基准上达到 76.3% 的准确率,同时将有害翻转率从 2.2% 降至 1.0%,并减少 26.8% 的后生成 Token。
In AI, Agent, 1 min readAI 范式雷达:《递归自改进警告:Anthropic 为何呼吁全球暂停 AI 研发》
Anthropic Institute 发表的文章《When AI builds itself》,首次系统性地展示了 Claude Mythos Preview 在 April 2026 已实现约 52 倍的研发加速比——Claude 辅助人类完成 AI 模型开发的速度是纯人工的 52 倍。文章同时披露了 Anthropic 内部对递归自改进(Recursive Self-Improvement, RSI)能力的三重评估:AI 系统正在接近”能够自主改进自身架构和训练流程”的能力阈值,Anthropic CEO Dario Amodei 和联合创始人 Jack Clark 在即将 IPO(估值约 9650 亿美元)的关键节点,呼吁所有 AI 实验室建立”协调减速或暂停”的全球机制。这篇文章将带你理解这些发现背后的工程含义、治理挑战以及它们如何重塑我们对 AI 安全边界的认知。
In AI, ParadigmRadar, 2 mins read一分钟读论文:《Agent记忆的遗忘架构学》
康奈尔大学与DeepLethe合作的一篇论文《Control-Plane Placement Shapes Forgetting》,首次将”遗忘”从Agent记忆评估中分离为独立维度。现有基准测试几乎全部只测量recall能力,而生产环境中最致命的故障恰恰是forgetting failure——系统成功检索了不该出现的信息。论文提出ForgetEval基准(1385 case)和十三种系统配置对比,证明Agent记忆系统中LLM在pipeline中的放置位置决定了系统能恢复哪些遗忘失败模式,遗忘能力不是recall能力的副产品,而是由控制面架构设计决定的独立维度。
In AI, Agent, 1 min readAI 范式雷达:《Agent的Token账单:1000倍消耗差异背后的工程真相》
如果你正在构建或部署 AI 智能体,你可能已经注意到一个令人不安的事实:同一个 Agent 任务,跑十次可能产生十种完全不同的 Token 账单。斯坦福大学 Longju Bai、密歇根大学 Jiaxin Pei 等研究者最近发表的论文《How Do AI Agents Spend Your Money? Analyzing and Predicting Token Consumption in Agentic Coding Tasks》首次对这个问题进行了系统性量化研究——他们分析了 8 个前沿 LLM 在 SWE-bench Verified 上的执行轨迹,得出了几个颠覆常识的结论。这篇文章将带你理解这些发现背后的工程含义,以及它们如何改变你对 Agent 成本管理的认知。
In AI, ParadigmRadar, 2 mins readFeatured
-
一分钟读论文:《Scratch Copilot:用 AI 支持青少年创意编程》推荐
In AI, 编程教育, -
一分钟读论文:《技术债的普遍性、原因和影响:业界系统调查》推荐
In Engineering, Architecture, -
一分钟读论文:《玩转 GitHub 开源软件社区的必备技能树》推荐
In OpenSource, Engineer, -
一分钟读论文:《ChatGPT 提示模式:提高代码质量、重构、需求获取和软件设计》
In AI, Engineering, Engineer, -
一分钟读论文:《用 Rust 和 WebAssembly 补充 JS 实现高性能 Node、Web 应用程序》
In Architecture, Performance, -
一分钟读论文:《通过反思性目标设定培养工程师的好习惯》
In Engineer, Productivity, -
一分钟读论文:《卓越的开源维护者是如何成就的?》
In OpenSource, Engineer, -
一分钟读论文:《我们走了多远——WebAssembly 运行时的全面特征研究》
In FrontEnd, -
一分钟读论文:《XSS 攻击22年:全面调查及系统综述》
In Security, -
一分钟读论文:《细孔沉千帆:小程序权限漏洞研究》
In Security, -
一分钟读论文:《影响大规模敏捷软件开发按时交付的因素》
In Productivity, -
一分钟读论文:《被掏空的一天:软件工程师的日常》
In Productivity, Engineer, -
一分钟读论文:《30年软件重构研究:系统性文献综述》
In Engineering, -
一分钟读论文:《要不要上 TypeScript?GitHub 上 JS 和 TS 应用软件质量的系统比较》
In FrontEnd, -
一分钟读论文:《NPM 供应链的软肋是什么?》
In Security,