标签:计算机视觉

CVPR2024|vivo提出使用对抗微调获得泛化性更强的SAM,分割直接登顶 SOTA!

本文介绍了一种名为ASAM(Adversarial Sample-based Adversarial Model)的新方法,旨在通过对抗微调来增强现有的Segment Anything Model(SAM)在图像分割任...

CVPR 2024 视频场景解析挑战赛第一名方案详解

本文介绍了一种基于不可靠伪标签的半监督视频语义分割方法,该方法在CVPR 2024的野外挑战赛中获得了视频场景解析的第一名。该方法首先在有标签数据上训练教师...

CVPR 2024 Highlight|一举实现多个CV任务SOTA!DCNv4: 动态与稀疏操作的高效融合

摘要:在计算机视觉领域,卷积神经网络(ConvNets)的性能很大程度上取决于其感受野的大小和形状。然而,传统卷积操作是固定的,无法适应图像内容的变化。为...

顶刊TPAMI 2024!黄高团队提出EfficientTrain++:高效视觉骨干训练方法

摘要:本文介绍了清华大学自动化系2019级直博生王语霖及其团队在IEEE Transactions on Pattern Analysis and Machine Intelligence(TPAMI)上发表的论文《Ef...

YOLOv10都来了!清华提出端到端YOLOv10:YOLO 无 NMS 训练的一致双重分配

接下来是文章的详细摘要:YOLO系列模型作为实时目标检测领域的主导范式,因其在计算成本和检测性能之间有效平衡而广受欢迎。然而,对非最大值抑制(NMS)的依...

TPAMI’24|清华EfficientTrain++:视觉基础网络最高3倍无损训练加速

摘要:本文介绍了一种名为EfficientTrain++的广义课程学习算法,由清华大学研究团队提出,旨在解决计算机视觉领域中视觉基础模型因模型尺寸和训练数据规模增...

从量子力学跨界来接替扩散模型?简化扩散薛定谔桥(S-DSB):能够在任意两个分布之间进行双向生成!

步骤2:撰写详细摘要S-DSB(简化扩散薛定谔桥)是一种针对扩散薛定谔桥(DSB)收敛慢和训练难问题进行改进的生成模型。它通过简化DSB的loss函数、将SGM(基于...

​NUS团队提出X-Ray:一种看透物体的3D表示和生成模型!

摘要:NUS研究团队胡涛博士等人近期发布了一种全新的3D表示技术——X-Ray,它能够序列化地表示从相机摄像角度看过去的物体的逐层次的物体表面形状和纹理,同时...

深入浅出各种边缘检测算子及其推导

摘要:本文详细介绍了边缘检测算法的相关知识,并通过大量图示和公式帮助读者深入理解各种边缘检测算子。文章首先解释了数字图像处理的基本概念,包括二值图...

亚马逊线下店 AI 训练失败:离不开 1000 名审核人员

亚马逊的“拿货即走”技术在推出多年后,面临技术问题和人工审核的需求,导致公司决定放弃这项基于AI的视频监控结账技术。尽管亚马逊希望借助AI技术实现无需排...
12