EnAgent:三个AI智能体组队,登顶代码修复榜单
引子:一个Bug,三个AI来修
想象一下:你在GitHub上提交了一个Issue,描述了一个Bug。
然后,三个AI智能体组成的团队开始工作:
- 🧠 生成智能体:提出多个可能的修复方案
- ✂️ 剪枝智能体:快速过滤掉明显不行的方案
- 🎯 选择智能体:从剩下的方案中选出最优解
这不是科幻小说,这是 ICSE 2026 上一篇论文《Agent-Based Ensemble Reasoning for Repository-Level Issue Resolution》提出的 EnAgent——一个让AI智能体组队解决代码问题的系统。
结果如何?它登顶了 SWE-bench Verified 榜单,Pass@1 达到 78.80%!
📝 论文概览
论文标题:Agent-Based Ensemble Reasoning for Repository-Level Issue Resolution
会议:ICSE 2026 (Research Track)
作者:天津大学 + ByteDance 联合团队
🎯 核心问题:仓库级代码修复太难了
为什么仓库级问题这么难?
修复仓库级的Issue,比起单个函数的代码生成,难度完全不是一个量级:
挑战一:集成空间太大
- 一个问题可能有多种修复方式
- 用不同的LLM、不同的提示策略,会产生不同的结果
- 如何从这么多可能中找到最优解?
挑战二:仓库级理解
- 你需要理解整个代码库的结构
- 你需要知道修改哪个文件、哪个函数
- 你需要保证修改不会破坏其他功能
这就像给一栋大楼做维修,你不仅要知道哪里坏了,还要知道怎么修才不会影响整栋楼的结构。
🔬 核心方案:三个智能体,各司其职
EnAgent 的核心思想很简单:让不同的智能体专注于不同的任务,然后协作解决问题。
架构:模块化的三智能体系统
EnAgent 把问题建模为最优解搜索,然后用三个模块化的智能体来解决:
1️⃣ 生成智能体(Generator Agent)
任务:生成多个可能的修复方案
怎么做?
- 使用多种LLM(比如 GPT-4、Claude、DeepSeek)
- 使用不同的提示策略
- 每个组合都生成一个修复方案
- 这样就有了一个多样化的候选池
就像开会时,先让大家头脑风暴,提出各种想法。
2️⃣ 剪枝智能体(Pruner Agent)
任务:快速过滤掉明显不行的方案
为什么需要?
- 生成的方案可能有十几个甚至更多
- 每个都要完整测试的话,成本太高
- 需要快速筛掉那些明显不对的
怎么做?
- 静态检查:语法对不对?
- 简单测试:基本逻辑通不通?
- 快速把候选池从十几个缩小到 2-3 个
这就像初选,先把明显不符合要求的淘汰掉。
3️⃣ 选择智能体(Selector Agent)
任务:从剩下的方案中选出最优解
怎么做?
- 对每个候选方案进行完整测试
- 用更复杂的评估标准(比如代码质量、兼容性)
- 最终选择一个最优方案
这就像决赛,从几个优秀候选人中选出最好的那个。
📊 核心结果:登顶 SWE-bench!
实验数据:效果说话
论文在 SWE-bench 上做了实验,结果让人印象深刻:
| 指标 | 数值 |
|---|---|
| 相比 SOTA 平均提升 | 10.22% Pass@1 |
| SWE-bench Verified 排名 | 第 1 名 |
| SWE-bench Verified Pass@1 | 78.80% |
| 对比基线数量 | 4 种 SOTA 方法 |
| 使用 LLM 数量 | 3 种主流 LLM |
10.22% 的提升在这个领域是一个很大的进步!
集成到 Trae Agent:直接登顶
最厉害的是,当把 EnAgent 集成到 Trae Agent 后:
- 直接登顶 SWE-bench Verified 榜单
- Pass@1 达到 78.80%
这意味着,在标准测试集上,EnAgent 能够解决近 80% 的真实仓库 Issue!
💡 一句话总结
“一个AI不够,三个AI来凑——EnAgent 用模块化的智能体协作,在代码修复任务上取得了 SOTA 结果。”
🎓 研究意义
这篇论文的意义在于:
- 模块化设计:把复杂任务拆解成多个子任务,每个子任务由专门的智能体处理
- 集成推理:利用多个LLM和多种策略的优势,而不是依赖单个模型
- 实用价值:在真实的 SWE-bench 上取得了显著提升,甚至登顶榜单
这给我们一个启发:未来的AI系统,可能不是单一的超级智能,而是多个专门智能体组成的团队。
就像人类社会一样,专业分工、协作配合,才能解决更复杂的问题。
🚀 一线工程师的启发
作为一线工程师,我们能从中学到什么?
- 不要依赖单一方案:遇到问题时,多想几个解决方案,然后再选最优的
- 模块化思维:把复杂问题拆解,逐个解决
- 验证的重要性:生成代码后,一定要测试,确保真的解决了问题
EnAgent 的成功,其实也反映了人类工程师的工作方式:
- 先理解问题
- 然后想几个可能的方案
- 快速排除不靠谱的
- 最后认真验证剩下的
AI 正在学习人类的工作方式,而且做得越来越好了。
🎉 结语
EnAgent 的成功告诉我们:
- 团队协作的力量,不仅适用于人类,也适用于AI
- 模块化设计的思想,在AI系统中同样重要
- 集成推理可能是未来提升AI能力的重要方向
当AI智能体学会像人类团队一样协作时,它们能解决的问题将会越来越复杂,越来越接近真实世界的需求。
也许未来,我们真的可以对AI说:”去,帮我把这个Issue修了。”而它真的能做到。