今日应用
今日话题
CVPR 2024|CLIP当成RNN!牛津&谷歌新作CaR:无需训练即可分割无数概念
重点标签 牛津大学、谷歌研究院、CLIP、CVPR 2024、图像分割
文章摘要
CaR技术细节包括:
1. 循环神经网络框架:CaR采用了一个新颖的循环框架,通过迭代过程不断优化文本查询与图像之间的对应关系。
2. 两阶段分割器:由掩膜提议生成器和掩膜分类器组成,均基于预训练的CLIP模型构建,且权重在迭代过程中保持不变。
3. 掩膜提议生成:使用gradCAM技术,基于图像和文本特征的相似度得分来生成掩膜提议。
4. 视觉提示:应用如红圈、背景模糊等视觉提示,以增强模型对图像特定区域的关注。
5. 阈值函数:通过设置相似度阈值,筛选出与文本查询对齐程度高的掩膜提议。
6. 后处理:使用密集条件随机场(CRF)和可选的SAM模型进行掩膜细化。
CaR的优势在于其无需微调、处理复杂文本查询的能力和对视频领域的扩展性,为开放词汇量图像分割领域带来了突破性进展。
文章来源
原文地址: 点我阅读全文
原文作者: 极市平台
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...