2024年还在学YOLO?SeeClick: 手把手教你基于Qwen-VL搭建一个多模态智能体!

AI最新资讯3个月前发布 tree
48 0 0

今日应用


今日话题


2024年还在学YOLO?SeeClick: 手把手教你基于Qwen-VL搭建一个多模态智能体!
2024年还在学YOLO?SeeClick: 手把手教你基于Qwen-VL搭建一个多模态智能体!
 

重点标签 视觉语言模型GUI智能体SeeClick图形用户界面交互方式

文章摘要


本文介绍了南京大学和上海AI实验室共同研发的基于大规模视觉语言模型(LVLM)的视觉GUI智能体SeeClick。SeeClick能够像人类一样通过观察屏幕执行点击、输入等操作,解决了以往视觉语言模型在指令鲁棒性、泛化能力和上下文能力方面的局限性。文章探讨了GUI grounding的挑战,即如何根据指令在屏幕上定位元素,并介绍了SeeClick如何通过在GUI grounding数据上训练来增强其定位能力。此外,文章还介绍了GUI Grounding Data的构建方法和GUI Grounding Benchmark ScreenSpot的设计,以及SeeClick在多个GUI agent benchmarks上的性能表现。最后,文章提供了SeeClick的应用示例和未来的展示计划。

重点摘要:
– SeeClick是一个基于LVLM的视觉GUI智能体,能够通过观察屏幕执行操作。
– 核心挑战是GUI grounding,即根据指令在屏幕上定位元素。
– 通过在GUI grounding数据上训练,SeeClick能准确定位操作元素。
– 作者们收集并开源了GUI grounding预训练数据,以增强模型的GUI定位能力。
– ScreenSpot是首个涵盖多种操作系统和Web场景的GUI grounding benchmark。
– SeeClick在多个GUI agent benchmarks上展现了优越的性能,证明了提升GUI grounding能力是提升agent任务性能的关键。
– 文章提供了SeeClick的应用示例和微调方法,并宣布将在LLMAgents @ ICLR 2024 Workshop上展示。

文章来源


原文地址: 点我阅读全文
原文作者: 江大白

© 版权声明

相关文章

暂无评论

暂无评论...