2024年还在学YOLO？SeeClick: 手把手教你基于Qwen-VL搭建一个多模态智能体！

AI最新资讯4个月前发布 tree

64 0 0

今日应用

下歌吧

下歌吧在线音乐搜索，可以在线免费下载全网MP3付费歌曲、流行音乐、经典老歌等。曲库完整，更新迅速，试听流畅，支持高品质|无损音质

今日话题

2024年还在学YOLO？SeeClick: 手把手教你基于Qwen-VL搭建一个多模态智能体！

重点标签 视觉语言模型、GUI智能体、SeeClick、图形用户界面、交互方式

文章摘要

本文介绍了南京大学和上海AI实验室共同研发的基于大规模视觉语言模型（LVLM）的视觉GUI智能体 SeeClick。SeeClick能够像人类一样通过观察屏幕执行点击、输入等操作，解决了以往视觉语言模型在指令鲁棒性、泛化能力和上下文能力方面的局限性。文章探讨了GUI grounding的挑战，即如何根据指令在屏幕上定位元素，并介绍了SeeClick如何通过在GUI grounding数据上训练来增强其定位能力。此外，文章还介绍了GUI Grounding Data的构建方法和GUI Grounding Benchmark ScreenSpot的设计，以及SeeClick在多个GUI agent benchmarks上的性能表现。最后，文章提供了SeeClick的应用示例和未来的展示计划。

重点摘要：
– SeeClick是一个基于LVLM的视觉GUI智能体，能够通过观察屏幕执行操作。
– 核心挑战是GUI grounding，即根据指令在屏幕上定位元素。
– 通过在GUI grounding数据上训练，SeeClick能准确定位操作元素。
– 作者们收集并开源了GUI grounding预训练数据，以增强模型的GUI定位能力。
– ScreenSpot是首个涵盖多种操作系统和Web场景的GUI grounding benchmark。
– SeeClick在多个GUI agent benchmarks上展现了优越的性能，证明了提升GUI grounding能力是提升agent任务性能的关键。
– 文章提供了SeeClick的应用示例和微调方法，并宣布将在LLMAgents @ ICLR 2024 Workshop上展示。

文章来源

原文地址: 点我阅读全文
原文作者: 江大白

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

2024年还在学YOLO？SeeClick: 手把手教你基于Qwen-VL搭建一个多模态智能体！

今日应用

今日话题

文章摘要

文章来源

基于光照、结构和纹理解耦，暗光人脸超分辨率图像算法（附代码链接）

苹果与百度合作，将在iPhone 16中使用生成式AI

相关文章

暂无评论

热门网址

热门标签