ai, 软件工程,

一分钟读论文:《EnAgent:三个AI智能体组队,登顶代码修复榜单》

Unbug By Unbug Follow Feb 27, 2026 · 1 min read
Share this

EnAgent:三个AI智能体组队,登顶代码修复榜单


引子:一个Bug,三个AI来修

想象一下:你在GitHub上提交了一个Issue,描述了一个Bug。

然后,三个AI智能体组成的团队开始工作:

  • 🧠 生成智能体:提出多个可能的修复方案
  • ✂️ 剪枝智能体:快速过滤掉明显不行的方案
  • 🎯 选择智能体:从剩下的方案中选出最优解

这不是科幻小说,这是 ICSE 2026 上一篇论文《Agent-Based Ensemble Reasoning for Repository-Level Issue Resolution》提出的 EnAgent——一个让AI智能体组队解决代码问题的系统。

结果如何?它登顶了 SWE-bench Verified 榜单,Pass@1 达到 78.80%!


📝 论文概览

论文标题:Agent-Based Ensemble Reasoning for Repository-Level Issue Resolution

会议:ICSE 2026 (Research Track)

作者:天津大学 + ByteDance 联合团队


🎯 核心问题:仓库级代码修复太难了

为什么仓库级问题这么难?

修复仓库级的Issue,比起单个函数的代码生成,难度完全不是一个量级:

挑战一:集成空间太大

  • 一个问题可能有多种修复方式
  • 用不同的LLM、不同的提示策略,会产生不同的结果
  • 如何从这么多可能中找到最优解?

挑战二:仓库级理解

  • 你需要理解整个代码库的结构
  • 你需要知道修改哪个文件、哪个函数
  • 你需要保证修改不会破坏其他功能

这就像给一栋大楼做维修,你不仅要知道哪里坏了,还要知道怎么修才不会影响整栋楼的结构。


🔬 核心方案:三个智能体,各司其职

EnAgent 的核心思想很简单:让不同的智能体专注于不同的任务,然后协作解决问题。

架构:模块化的三智能体系统

EnAgent 把问题建模为最优解搜索,然后用三个模块化的智能体来解决:

1️⃣ 生成智能体(Generator Agent)

任务:生成多个可能的修复方案

怎么做?

  • 使用多种LLM(比如 GPT-4、Claude、DeepSeek)
  • 使用不同的提示策略
  • 每个组合都生成一个修复方案
  • 这样就有了一个多样化的候选池

就像开会时,先让大家头脑风暴,提出各种想法。

2️⃣ 剪枝智能体(Pruner Agent)

任务:快速过滤掉明显不行的方案

为什么需要?

  • 生成的方案可能有十几个甚至更多
  • 每个都要完整测试的话,成本太高
  • 需要快速筛掉那些明显不对的

怎么做?

  • 静态检查:语法对不对?
  • 简单测试:基本逻辑通不通?
  • 快速把候选池从十几个缩小到 2-3 个

这就像初选,先把明显不符合要求的淘汰掉。

3️⃣ 选择智能体(Selector Agent)

任务:从剩下的方案中选出最优解

怎么做?

  • 对每个候选方案进行完整测试
  • 用更复杂的评估标准(比如代码质量、兼容性)
  • 最终选择一个最优方案

这就像决赛,从几个优秀候选人中选出最好的那个。


📊 核心结果:登顶 SWE-bench!

实验数据:效果说话

论文在 SWE-bench 上做了实验,结果让人印象深刻:

指标 数值
相比 SOTA 平均提升 10.22% Pass@1
SWE-bench Verified 排名 第 1 名
SWE-bench Verified Pass@1 78.80%
对比基线数量 4 种 SOTA 方法
使用 LLM 数量 3 种主流 LLM

10.22% 的提升在这个领域是一个很大的进步!

集成到 Trae Agent:直接登顶

最厉害的是,当把 EnAgent 集成到 Trae Agent 后:

  • 直接登顶 SWE-bench Verified 榜单
  • Pass@1 达到 78.80%

这意味着,在标准测试集上,EnAgent 能够解决近 80% 的真实仓库 Issue!


💡 一句话总结

“一个AI不够,三个AI来凑——EnAgent 用模块化的智能体协作,在代码修复任务上取得了 SOTA 结果。”


🎓 研究意义

这篇论文的意义在于:

  1. 模块化设计:把复杂任务拆解成多个子任务,每个子任务由专门的智能体处理
  2. 集成推理:利用多个LLM和多种策略的优势,而不是依赖单个模型
  3. 实用价值:在真实的 SWE-bench 上取得了显著提升,甚至登顶榜单

这给我们一个启发:未来的AI系统,可能不是单一的超级智能,而是多个专门智能体组成的团队。

就像人类社会一样,专业分工、协作配合,才能解决更复杂的问题。


🚀 一线工程师的启发

作为一线工程师,我们能从中学到什么?

  • 不要依赖单一方案:遇到问题时,多想几个解决方案,然后再选最优的
  • 模块化思维:把复杂问题拆解,逐个解决
  • 验证的重要性:生成代码后,一定要测试,确保真的解决了问题

EnAgent 的成功,其实也反映了人类工程师的工作方式:

  • 先理解问题
  • 然后想几个可能的方案
  • 快速排除不靠谱的
  • 最后认真验证剩下的

AI 正在学习人类的工作方式,而且做得越来越好了。


🎉 结语

EnAgent 的成功告诉我们:

  • 团队协作的力量,不仅适用于人类,也适用于AI
  • 模块化设计的思想,在AI系统中同样重要
  • 集成推理可能是未来提升AI能力的重要方向

当AI智能体学会像人类团队一样协作时,它们能解决的问题将会越来越复杂,越来越接近真实世界的需求。

也许未来,我们真的可以对AI说:”去,帮我把这个Issue修了。”而它真的能做到。

Releated