首个AI软件工程师Devin完整技术报告出炉,还有人用GPT做出了「复刻版」

AI最新资讯2个月前发布 tree
47 0 0

今日应用


今日话题


首个AI软件工程师Devin完整技术报告出炉,还有人用GPT做出了「复刻版」
首个AI软件工程师Devin完整技术报告出炉,还有人用GPT做出了「复刻版」
 

重点标签 AI软件工程师SWE-benchDevin编程测试驱动

文章摘要


SWE-bench 测试中,Devin 能够根据 GitHub 问题描述和存储库生成 diff,成功解决了一系列问题。团队对 Devin 进行了定性分析,发现其能够执行多步规划并接收环境反馈,72% 的通过测试需要超过 10 分钟才能完成。在测试驱动实验中,Devin 在提供最终单元测试和问题陈述的情况下,成功通过率提高到了 23%。Cognition AI 团队认为,端到端运行智能体是更自然的设置,更类似于现实世界的软件开发。

Devin 的成功案例包括对 scikit-learn 和 django 项目的编辑,展示了其迭代能力和处理多行代码更改的能力。然而,Devin 也遇到了挑战,例如在处理复杂的计算机代数系统任务时出现错误。尽管如此,Devin 的表现仍然优于其他模型,并且在社区中激发了对类似 AI 软件工程师项目的兴趣。

文章来源


原文地址: 点我阅读全文
原文作者: 机器之心

© 版权声明

相关文章

暂无评论

暂无评论...