今日应用
今日话题
ECCV 2024|GKGNet:多标签分类遇上图卷积网络ViG
重点标签 多标签分类、图卷积网络、GKGNet、Group KGCN、动态图构建
文章摘要
本文介绍了一种新型的全图卷积模型GKGNet,它针对多标签图像识别任务,首次研究了视觉特征和标签嵌入的统一图表示。GKGNet通过灵活的图结构有效地处理了目标区域的分布复杂性和大小不一的问题,实现了在多标签数据集MS-COCO和VOC2007上的SOTA性能,同时具有显著较低的计算成本。
多标签分类任务的挑战:
多标签分类任务需要预测单个图像中的多个对象标签,并建模标签与图像区域之间的复杂关系。现有的CNN和Vision Transformer虽然在图像处理方面取得了成功,但它们在捕捉不规则和不连续的兴趣区域方面存在局限。
GKGNet模型介绍:
GKGNet将图像块和目标标签都视为图节点,并在统一的图结构中处理它们。模型构建了跨层次图和图像块层次图,自适应地整合兴趣区域的特征,有效更新视觉特征和标签嵌入的统一图表示。
Group KGCN模块:
为了应对不同对象的尺度差异并从多个角度捕捉信息,GKGNet提出了Group KGCN模块,它将节点特征拆分为多个组,并在每个组之间构建连接。通过设计每个组选择的邻居节点可以重叠,Group KNN方法允许目标节点与动态数量的源节点进行交互,并处理不同尺度的对象。
实验结果:
GKGNet在MS-COCO和VOC2007数据集上实现了SOTA性能,同时具有较低的计算成本。此外,Group KNN在通用图像识别上的性能也得到了验证,如在ViG-Tiny模型上的应用。
可视化展示:
GKGNet的可视化结果表明,Group KNN有效地适应了对象的大小,灵活地提取共现关系,如汽车和交通信号灯之间的关系。
总结:
GKGNet作为一种新颖的全图卷积模型,通过动态图构建和消息传递,有效处理了不同对象的尺度变化和共现关系。在公共基准数据集上的实验验证了其有效性,为多模态特征与动态图表示相结合的研究提供了新的方向。未来,研究者计划将工作扩展到更广泛的基于图学习的问题。
文章来源
原文地址: 点我阅读全文
原文作者: 极市平台