CVPR 2024｜CLIP当成RNN！牛津&谷歌新作CaR：无需训练即可分割无数概念

AI最新资讯5个月前发布 tree

50 0 0

今日应用

歌者AI写PPT

歌者AI，让描述变成接地气风格的PPT，轻松打造个性化演示文稿。

今日话题

CVPR 2024｜CLIP当成RNN！牛津&谷歌新作CaR：无需训练即可分割无数概念

重点标签 牛津大学、谷歌研究院、CLIP、CVPR 2024、图像分割

文章摘要

CaR技术细节包括：
1. 循环神经网络框架：CaR采用了一个新颖的循环框架，通过迭代过程不断优化文本查询与图像之间的对应关系。
2. 两阶段分割器：由掩膜提议生成器和掩膜分类器组成，均基于预训练的CLIP模型构建，且权重在迭代过程中保持不变。
3. 掩膜提议生成：使用gradCAM技术，基于图像和文本特征的相似度得分来生成掩膜提议。
4. 视觉提示：应用如红圈、背景模糊等视觉提示，以增强模型对图像特定区域的关注。
5. 阈值函数：通过设置相似度阈值，筛选出与文本查询对齐程度高的掩膜提议。
6. 后处理：使用密集条件随机场（CRF）和可选的SAM模型进行掩膜细化。

CaR的优势在于其无需微调、处理复杂文本查询的能力和对视频领域的扩展性，为开放词汇量图像分割领域带来了突破性进展。

文章来源

原文地址: 点我阅读全文
原文作者: 极市平台

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

CVPR 2024｜CLIP当成RNN！牛津&谷歌新作CaR：无需训练即可分割无数概念

今日应用

今日话题

文章摘要

文章来源

Stability AI开源47秒音频生成模型，虫鸣鸟叫、摇滚、鼓点都能生成

CVPR 2024 视频场景解析挑战赛第一名方案详解

相关文章

暂无评论

热门网址

热门标签