标签:图形用户界面

2024年还在学YOLO?SeeClick: 手把手教你基于Qwen-VL搭建一个多模态智能体!

本文介绍了南京大学和上海AI实验室共同研发的基于大规模视觉语言模型(LVLM)的视觉GUI智能体SeeClick。SeeClick能够像人类一样通过观察屏幕执行点击、输入等...