用基础模型指导特征传播,首个泛化型图像匹配器OmniGlue搞定未见过域

AI最新资讯8个月前发布 tree
84 0 0

今日应用


今日话题


用基础模型指导特征传播,首个泛化型图像匹配OmniGlue搞定未见过域
用基础模型指导特征传播,首个泛化型图像匹配器OmniGlue搞定未见过域
 

重点标签 图像匹配泛化能力OmniGlueDINOv2关键点位置

文章摘要


OmniGlue是由德克萨斯大学奥斯汀分校和谷歌研究院的研究者联合提出的一种可学习图像匹配器,它以泛化能力为核心设计原则。这项技术在图像匹配模型的泛化能力方面取得了重要进展,特别是在传统基准上的性能提升。OmniGlue通过引入基础模型指导和关键点位置注意力指导的技术,能够在分布外领域上实现更好的泛化性能,同时保持源领域上的高质性能。

研究者首先整合了基础模型的广泛视觉知识,利用DINOv2模型在各种图像域中的表现来指导图像间特征传播过程,降低不相关的关键点并鼓励模型融合来自潜在可匹配区域的信息。接着,研究者利用关键点位置信息来指导信息传播过程,提出了一种新颖的关键点位置指导注意力机制,避免过于专注关键点的训练分布和相对姿态变换。

OmniGlue方法主要包括四个阶段:特征提取、构建关键点关联图、基于构建的图在两张图像中的关键点之间传播信息,以及应用最佳匹配层来生成两张图像中关键点之间的映射。在特征提取阶段,输入是两张具有共享内容的图像,研究者将这两张图像的SuperPoint关键点集表示为A和B,并与SuperPoint局部描述符相关联。利用DINOv2构建图形,计算关键点集合A中每个关键点与集合B中所有关键点的DINOv2特征相似度。具有新颖指导的信息传播模块包含多个块,每个块都有两个注意力层,分别执行自注意力和交叉注意力。最后,使用改进的关键点表示来生成成对相似度矩阵。

在与SuperGlue和LightGlue的对比中,OmniGlue利用基础模型来指导信息传播过程,这对迁移到训练期间未观察到的图像域有很大帮助。与SuperGlue不同,OmniGlue解耦了位置和外观特征,而LightGlue消除了更新的描述符对位置特征的依赖,但提出了一种非常具体的位置编码公式。

实验结果显示,OmniGlue在各种视觉领域的泛化能力上表现出显著的改进,包括合成图像和真实图像,从场景级到以对象为中心和空中数据集。与基础方法SuperGlue相比,OmniGlue不仅在领域内数据上表现出优异的性能,而且还表现出强大的泛化能力。在MegaDepth到其他领域的比较中,OmniGlue在6个新领域中的5个领域中表现出更好的泛化能力。研究者还展示了新领域上的零样本泛化性能以及在源领域上的性能,证明了OmniGlue更容易适应目标领域。

文章来源


原文地址: 点我阅读全文
原文作者: 机器之心

© 版权声明

相关文章

暂无评论

暂无评论...