CVPR 2024 Highlight｜一举实现多个CV任务SOTA！DCNv4：动态与稀疏操作的高效融合

AI最新资讯5个月前发布 tree

55 0 0

今日应用

微软 – Azure文本转语音

微软Azure语音合成 - 将文本转化为自然流畅的语音，为您的应用程序提供更强大、更人性化的用户体验！

今日话题

CVPR 2024 Highlight｜一举实现多个CV任务SOTA！DCNv4：动态与稀疏操作的高效融合

重点标签 DCNv4、稀疏算子、内存访问优化、动态特性、计算机视觉

文章摘要

摘要：
在计算机视觉领域，卷积神经网络（ConvNets）的性能很大程度上取决于其感受野的大小和形状。然而，传统卷积操作是固定的，无法适应图像内容的变化。为了解决这一问题，可变形卷积（Deformable Convolution，简称DCN）通过引入额外的可学习偏移量来调整卷积核的形状，允许网络自适应地关注输入特征图的特定区域。尽管DCN在目标检测和图像分割等感知任务上得到了广泛应用，但其运行速度偏慢，收敛速度弱于Depth-wise Conv和注意力机制，限制了其作为首要选择的可能性。

针对这些问题，研究团队进行了细致的分析，并提出了改进措施，推出了DCNv4算子。DCNv4在实现速度和性能上都有显著提升，具体改进包括：

1. 去除softmax归一化：在空间聚合中，去除了DCNv3中的softmax归一化，增强了网络的动态特性和表达能力。这一改进使得DCNv4在没有标准注意力机制“key”概念的情况下，不再需要softmax归一化，从而提高了性能。

2. 优化内存访问：通过对现有实现的指令级内核分析，发现内存访问占据了大部分的计算成本。因此，研究团队优化了内存访问模式，减少了冗余操作，显著提高了运行速度。

理论上，DCN作为具有3×3窗口的稀疏算子，应该比采用更大窗口尺寸的其他常见算子更快。然而，实际情况并非如此。研究团队进行了GPU效率的理论分析，发现内存访问成本根据读取内存的方式有很大的差异。通过节省额外的内存指令显著提高了DCN的速度，使稀疏算子的速度优势成为现实。

最终，DCNv4算子在实际运行速度上取得了最优，三倍于DCNv3的效果。此外，DCNv4在多个视觉任务上展现了卓越的性能，如图像分类、实例分割、语义分割等任务中，收敛速度更快，最终性能也更优。当DCNv4集成到生成模型中，如潜在扩散模型的U-Net，它在图像生成任务中也展现了出色的性能。

研究团队还对DCNv4在基于扩散的生成模型的生成任务中的表现进行了验证。在Stable Diffusion中使用的U-Net作为基线，并替换了U-Net中的注意力模块和常规的3×3卷积，DCNv4在生成建模中也表现良好，与U-Net中常规卷积相比，在FID/吞吐量方面取得了更好的结果，且参数更少。

这项研究不仅推动了DCN算子的发展，也为计算机视觉领域的研究提供了新的思路和工具。

文章来源

原文地址: 点我阅读全文
原文作者: 极市平台

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

CVPR 2024 Highlight｜一举实现多个CV任务SOTA！DCNv4：动态与稀疏操作的高效融合

今日应用

今日话题

文章摘要

文章来源

嘴炮王者Tyler1化身免费AI陪玩，帮你在英雄联盟中打爆三路，轻松上分

CVPR'24｜无需微调，室内室外，多模态输入全搞定！L-MAGIC：让图像扩散模型生成高质量360度场景

相关文章

暂无评论

热门网址

热门标签

CVPR 2024 Highlight｜一举实现多个CV任务SOTA！DCNv4： 动态与稀疏操作的高效融合

今日应用

今日话题

文章摘要

文章来源

嘴炮王者Tyler1化身免费AI陪玩，帮你在英雄联盟中打爆三路，轻松上分

CVPR'24｜无需微调，室内室外，多模态输入全搞定！L-MAGIC：让图像扩散模型生成高质量360度场景

相关文章

暂无评论

热门网址

热门标签

CVPR 2024 Highlight｜一举实现多个CV任务SOTA！DCNv4：动态与稀疏操作的高效融合