今日应用
今日话题
首个AI软件工程师Devin完整技术报告出炉,还有人用GPT做出了「复刻版」
重点标签 AI软件工程师、SWE-bench、Devin、编程、测试驱动
文章摘要
在 SWE-bench 测试中,Devin 能够根据 GitHub 问题描述和存储库生成 diff,成功解决了一系列问题。团队对 Devin 进行了定性分析,发现其能够执行多步规划并接收环境反馈,72% 的通过测试需要超过 10 分钟才能完成。在测试驱动实验中,Devin 在提供最终单元测试和问题陈述的情况下,成功通过率提高到了 23%。Cognition AI 团队认为,端到端运行智能体是更自然的设置,更类似于现实世界的软件开发。
Devin 的成功案例包括对 scikit-learn 和 django 项目的编辑,展示了其迭代能力和处理多行代码更改的能力。然而,Devin 也遇到了挑战,例如在处理复杂的计算机代数系统任务时出现错误。尽管如此,Devin 的表现仍然优于其他模型,并且在社区中激发了对类似 AI 软件工程师项目的兴趣。
文章来源
原文地址: 点我阅读全文
原文作者: 机器之心
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...