顶刊TPAMI 2024！北理等提出FreqFusion，让CVPR视觉投稿轻松涨点！（附论文及源码）

未分类6个月前发布 tree

98 0 0

顶刊TPAMI 2024！北理等提出FreqFusion，让CVPR视觉投稿轻松涨点！（附论文及源码）

以下文章来源于微信公众号：PaperWeekly

作者：知凡

单位：北京理工大学

链接：https://mp.weixin.qq.com/s/-uXWh4G449c1wphEC6L3pQ

本文仅用于学术分享，如有侵权，请联系后台作删文处理

导读

在计算机视觉中，现有特征融合方法常导致不一致和边界模糊。北京理工大学提出FreqFusion方法，通过创新滤波器设计，提升特征一致性和细节表现，实现多种视觉任务性能的显著提升。

顶刊TPAMI 2024！北理等提出FreqFusion，让CVPR视觉投稿轻松涨点！（附论文及源码）

论文标题：

Frequency-aware Feature Fusion for Dense Image Prediction

论文链接：

https://www.arxiv.org/abs/2408.12879

代码已开源：

https://github.com/Linwei-Chen/FreqFusion

在语义分割、目标检测、实例分割、全景分割上都涨点！

1、这篇论文做了什么？

现有的语义分割、目标检测等高层密集识别模型中，往往需要将低分辨高层特征与高分辨率低层特征融合，例如 FPN：

虽然简单，但这样粗糙的特征融合方式显然不够优秀，一方面特征本身对同一类目标的一致性不够高，会出现融合特征值在对象内部快速变化，导致类别内不一致性，另一方面简单的上采样会导致边界模糊，以及融合特征的边界模糊，缺乏精确的高频细节。

2、提出了什么方法

FreqFusion 提出：为了解决这些问题，作者提出了一种名为 Frequency-Aware Feature Fusion（FreqFusion）的方法。FreqFusion 包括：

自适应低通滤波器（ALPF）生成器：预测空间变化的低通滤波器，以在上采样过程中减少对象内部的高频成分，降低类别内不一致性。
偏移生成器：通过重采样，用更一致的特征替换大的不一致特征，使得同一类目标特征更稳定一致。
自适应高通滤波器（AHPF）生成器：增强在下采样过程中丢失的高频细节边界信息。

顶刊TPAMI 2024！北理等提出FreqFusion，让CVPR视觉投稿轻松涨点！（附论文及源码）

用特征图进行分析对比，发现 FreqFusion 各个部分都可以显著提高特征的质量！

顶刊TPAMI 2024！北理等提出FreqFusion，让CVPR视觉投稿轻松涨点！（附论文及源码）

文中给了大量的分析和详细的说明，具体方法可以看原文~

3、涨点涨了多少？

3.1 语义分割semantic segmentation

轻量化语义分割 SegNeXt，在 ADE20K 上 +2.4 mIoU（实际 checkpoint，+2.6mIoU）

顶刊TPAMI 2024！北理等提出FreqFusion，让CVPR视觉投稿轻松涨点！（附论文及源码）

强大的 Mask2Former 已经在 ADE20K 上取得很好的结果，FreqFusion 还能狠狠进一步讲 Swin-B 提升 +1.4 mIoU（实际给出的 checkpoint，+1.8 mIoU），即便是重型的 Swin-Large，也能提升高 +0.7 mIoU（实际给出的 checkpoint，+0.9 mIoU）。不得不说论文里汇报的结果还是保守了。

顶刊TPAMI 2024！北理等提出FreqFusion，让CVPR视觉投稿轻松涨点！（附论文及源码）

3.2 目标检测object detection

Faster RCNN +1.9 AP（实际公开的 checkpoint，+2.0 AP）

顶刊TPAMI 2024！北理等提出FreqFusion，让CVPR视觉投稿轻松涨点！（附论文及源码）

3.3 实例分割instance segmentation

Mask R-CNN，+1.7 box AP，+1.3 mask AP。

3.4 全景分割panoptic segmentation

PanopticFCN，+2.5 PQ。

顶刊TPAMI 2024！北理等提出FreqFusion，让CVPR视觉投稿轻松涨点！（附论文及源码）

如何使用？

简单来说，示例如下：

m = FreqFusion(hr_channels=64, lr_channels=64)
hr_feat = torch.rand(1, 64, 32, 32)
lr_feat = torch.rand(1, 64, 16, 16)
_, hr_feat, lr_feat = m(hr_feat=hr_feat, lr_feat=lr_feat)

FreqFusion 的简洁代码可在此处获得。通过利用它们的频率特性，FreqFusion 能够增强低分辨率和高分辨率特征的质量（分别称为 lr_feat 和 hr_feat ，假设的大小 hr_feat 是的两倍 lr_feat ）。用法非常简单，只要模型中存在这种形式的不同分辨率特征相融合的情况就可以使用 FreqFusion 对模型进行提升涨点。

4、推荐阅读

江大白 | 这些年从0转行AI行业的一些感悟

AI项目应用 | 万字长文教你一步步实现离岗识别

AI行业大家有想问的，欢迎来《AI未来星球》，一起成长

扫描下方二维码即可加入~

顶刊TPAMI 2024！北理等提出FreqFusion，让CVPR视觉投稿轻松涨点！（附论文及源码）

你可以获得什么？

1、AI行业创业/工作/生活中遇到的各类问题，都可获高质量解答， 有效期一年，无限次提问，有问必答。

2、购买过的，数万元的各类数据集的分享；

3、定期邀请AI行业各类嘉宾分享，创业/商业等方面的经验！

4、AI行业研发、产品、商业落地方面专业分享（大白主业，也在负责公司AI业务板块）

帮助你解决遇到的实际问题，升职加薪！

大家一起加油！ 顶刊TPAMI 2024！北理等提出FreqFusion，让CVPR视觉投稿轻松涨点！（附论文及源码）

# 未分类

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

顶刊TPAMI 2024！北理等提出FreqFusion，让CVPR视觉投稿轻松涨点！（附论文及源码）

1、这篇论文做了什么？

2、提出了什么方法

3、涨点涨了多少？

3.1 语义分割semantic segmentation

3.2 目标检测object detection

3.3 实例分割instance segmentation

3.4 全景分割panoptic segmentation

如何使用？

4、推荐阅读

江大白 | 这些年从0转行AI行业的一些感悟

AI项目应用 | 万字长文教你一步步实现离岗识别

卖出 68 亿，「黑神话」成 Steam 最畅销游戏；魅族产「红旗手机」曝光；「AI Siri」明年 1 月到来｜极客早知道

35岁中年博士失业，决定给找高校教职的后辈们一些建议！

相关文章

暂无评论

热门网址

热门标签