OpenDevin出技术报告了,大模型Agent开发者必读

AI最新资讯2个月前发布 tree
19 0 0

今日应用


今日话题


OpenDevin出技术报告了,大模型Agent开发者必读
OpenDevin出技术报告了,大模型Agent开发者必读
 

重点标签 AI软件工程师DevinAI编程助手OpenDevinAgent

文章摘要


今年3月,全球首位AI软件工程师Devin的诞生在AI领域引起了广泛关注。与以往的AI编程助手不同,Devin能够独立完成整个开发项目。这一创新成果很快激发了业界的模仿热潮,其中OpenDevin项目因其出色的表现而备受关注。OpenDevin是一个旨在开发与世界互动的通用智能体的平台,具备大模型Agent、交互机制、沙盒操作系统、Web浏览器环境、代码创建接口、多Agent支持和评估框架等特点。目前,其GitHub Star量已超过2.9万。

OpenDevin团队最近发布了一份技术报告,详细介绍了这一社区驱动的平台。报告指出,OpenDevin不仅是一个概念框架,还包含了一个全面且可立即使用的Agent、环境和评估实现。目前,平台已实现10多个智能体,包括基于CodeAct架构的通用智能体,并增加了Web浏览和代码编辑功能。用户可以通过聊天界面与智能体交互,实现实时反馈。

OpenDevin的架构从定义和实现智能体、动作执行、技能管理、多智能体组合等方面进行了阐述。智能体能够感知环境状态并生成要执行的操作,状态和事件流是其关键组成部分。动作连接了智能体与环境,包括执行Python代码和bash命令,以及与Web浏览器的交互。观察则描述了智能体观察到的环境变化,可能由智能体的动作引起,也可能不是。

OpenDevin还构建了一个AgentSkills库,旨在增强智能体的功能,提供基本命令或代码无法获得的实用程序。此外,平台允许多个智能体进行交互,通过AgentDelegateAction动作类型实现子任务的委托。在评估方面,OpenDevin与开源可复现的基线方法进行了比较,虽然在某些类别中并非最佳,但其设计考虑了通用性。

技术报告还展示了OpenDevin在软件工程、网页浏览等任务上的评估结果。例如,在SWE-bench中,CodeActAgent v1.8解决问题的成功率达到了26%;在HumanEvalFix中,修复Python错误的成功率为79.3%;在ML-Bench上,基于GPT-4o的智能体实现了76.47%的成功率。此外,智能体在Gorilla APIBench和ToolQA中也表现出色,但在数学和计算器工具使用方面仍有改进空间。

总体而言,OpenDevin作为一个通用智能体平台,展示了AI在软件开发和Web任务处理方面的巨大潜力。随着技术的不断进步和社区的共同努力,我们有理由相信,OpenDevin将在未来发挥更加重要的作用。

文章来源


原文地址: 点我阅读全文
原文作者: 机器之心

© 版权声明

相关文章

暂无评论

暂无评论...