Agent已死这个无Agent打法拿下了SWEbench最佳成本不到Agent的110
一个「无Agent」的方案竟取得了SWE-bench基准测试的最佳成绩!

对于复杂的软件工程问题,传统思路都在研究如何打造更强大的Agent,但一个去Agent 的方案却反其道而行之,用了一个 简单到不能再简单的方案 击败了所有对手。

这个名为「 Agentless 」的方案,不仅在SWE-bench基准测试中 击败了所有开源Agent方案 ,每个问题的平均成本更是低到了 惊人的0.7美元 !
这个成本比其他基于Agent的方案低了将近 90% !
简单粗暴才是王道
与其他复杂的Agent方案不同,Agentless采用了一个出人意料的简单流程。

它首先会对整个代码仓库进行扫描,生成一个完整的树状结构,就像给代码做了一次「 全身体检 」。
在这个基础上,它会结合问题描述,利用提示词和嵌入技术来定位可疑文件。
这就像是一个经验丰富的医生,能够根据症状快速找到病灶所在。
不过Agentless并不会贸然动手,它会先仔细研究这些文件的「骨架结构」,也就是类和函数的框架,最后才精确定位到需要「动刀子」的代码行。
定位到问题后,Agentless并不会像其他工具那样直接重写整段代码。

相反,它会 采用一种更谨慎的方式 :生成多个搜索/替换式的补丁。这就像是在进行「微创手术」,只修改必要的部分,大大降低了出错的风险。
测试才是硬道理
光是修改还不够,Agentless还会严格把关。

它会自动创建测试用例来验证bug是否真的被修复了,同时运行现有的回归测试,确保新的修改不会破坏原有的功能。
这个严格的测试机制带来了显著的效果 :
在使用Claude 3.5 Sonnet作为底层模型时,Agentless在SWE-bench lite和verified测试集上分别达到了 40.7%和50.8%的解决率 。

这个成绩已经远远超过了所有现有的开源Agent方案。

更令人惊讶的是,通过结合嵌入和提示检索技术,Agentless还进一步提升了准确性。

生成的复现测试不仅帮助识别出最佳补丁,还大大降低了修复过程中的错误率。
成本优势惊人
在性能提升的同时,Agentless还在成本控制上创造了奇迹。 每解决一个问题仅需0.7美元 ,这比传统Agent方案动辄几美元甚至十几美元的成本低了一个数量级。

这种惊人的成本优势主要得益于它的简单设计。


通过采用搜索/替换差异而不是完整的代码重写,Agentless大大减少了API调用次数,自然也就降低了成本。
简单就是美
Agentless的成功证明,在软件开发领域, 复杂的方案不一定是最好的选择 。
传统的Agent方法虽然看起来很酷炫,但实际上增加了很多不必要的复杂性,反而限制了其实际效果。

正是因为看到了这一点,OpenAI选择在其最重要的模型——GPT-4o、o1和o3中采用了这一方案。这不仅证明了Agentless的实力,也说明了 在AI领域,有时候「少即是多」 。
论文见:https://arxiv.org/pdf/2407.01489
并且,这个项目已经在GitHub上开源:
https://github.com/OpenAutoCoder/Agentless

版权声明:
作者:shadowrocket
链接:https://www.shadowrocket8.top/23.html
来源:Shadowrocket官网
文章版权归作者所有,未经允许请勿转载。


共有 0 条评论