今日应用
今日话题
CVPR’24|擅长处理复杂场景和语言表达,清华&博世提出全新实例分割网络架构MagNet
重点标签 MagNet、Mask Grounding、跨模态对齐、指代分割、细粒度语言-图像对齐
文章摘要
本文深入探讨了指代分割(RIS)领域的挑战和当前存在的问题,尤其是在细粒度语言-图像对齐方面的不足。针对这些问题,文章作者提出了一种新的方法,名为MagNet,通过引入辅助任务Mask Grounding、跨模态对齐模块和跨模态对齐损失函数,全面提升了语言和图像之间的对齐效果。
指代分割(RIS)是一项极具挑战性的多模态任务,要求算法能够同时理解精细的人类语言和视觉图像信息,并将图像中句子所指代的物体进行像素级别的分割。尽管目前最先进的 RIS 算法已经取得了显著进展,但仍然面临着模态差异的问题,即图像和文本特征的分布并未完全对齐。
文章中提出的MagNet由3个独立互补的模块组成,分别为Mask Grounding,跨模态对齐模块(CAM)和跨模态对齐损失函数(CAL)。在给定输入图像、对应的指代表达以及分割掩码的情况下,作者随机选取句子中的某些词汇,并将其替换为一个特殊的可学习掩码token。然后,训练模型来预测这些被替换词汇的实际身份。通过成功预测被掩码token的身份,模型能够理解文本中的哪些词汇对应于图像的哪些部分,从而在此过程中学习细粒度语言-图像对齐能力。
跨模态对齐模块(CAM)通过在执行语言-图像融合之前将全局上下文先验注入图像特征来增强语言-图像对齐效果。而跨模态对齐损失函数(CAL)同时考虑了像素到像素(P2P)和像素到文本(P2T)之间的对齐。
在实验中,MagNet在RefCOCO、RefCOCO+和G-Ref数据集上大幅超越了所有之前最优的算法,在整体交并比(oIoU)这项核心指标上显著提升了2.48个百分点。可视化结果也证实,MagNet在处理复杂场景和语言表达时具有出色的表现。
这篇文章为指代分割领域的进一步发展提供了有益的启示,有望推动该领域取得更大的突破。
文章来源
原文地址: 点我阅读全文
原文作者: 极市平台