标签:Transformer
3D点云学习新架构!PointRWKV:刷新点云表征学习性能及FLOPs!
极市导读:本文介绍了一种基于RWKV的算法,该算法在极小的线性复杂度和参数量上达到高效率,并且能够处理多尺度的点云输入。背景:3D点云分析是自动驾驶、虚...
速览多模态模型 Transfusion 和 Show-o:用 Transformer + 扩散模型同时处理文本和图像
极市导读:本文介绍了两个大型多模态模型:Transfusion和Show-o,它们结合了Transformer和扩散模型来处理文本和图像。Transfusion在图像生成上表现更佳,而Sh...
ACM MM’24|CPRFL:基于CLIP的新方案,破解长尾多标签分类难题
极市导读本文提出了一种新颖的提示学习方法,类别提示精炼特征学习(CPRFL),用于长尾多标签图像分类(LTMLC)。这是首次利用类别语义关联来缓解LTMLC中的头...
Andrej Karpathy最新激进观点:Transformer将超越人脑
Andrej Karpathy,前OpenAI成员及特斯拉自动驾驶计算机视觉团队领导者,近期在播客节目No Priors中分享了他对AI未来的看法。他认为,Transformer模型在性能上...
别只盯着DiT,国产模型也在暗自发力!U-ViT:ViT 架构实现 Diffusion 的开山之作!
本文介绍了一种基于Vision Transformer (ViT) 的扩散模型U-ViT,该模型由清华大学、中国人民大学和北京智源的研究团队开发。U-ViT使用ViT替换了传统扩散模型...
Mamba作者新作:将Llama3蒸馏成混合线性 RNN
在深度学习领域,Transformer 模型因其注意力机制而广受欢迎,该机制允许模型关注输入序列的相关部分,从而实现更好的上下文理解。然而,注意力机制的计算开...
一文看懂Mamba,Transformer最强竞争者
摘要:深度学习领域中,尽管 Transformer 架构凭借其注意力机制在多个应用领域取得了显著成功,但其计算成本随着输入规模的增加而呈二次方增长,限制了处理长...
ECCV’24|图像文本擦除无痕迹!复旦提出EAFormer:最新场景文本分割新SOTA!
本文介绍了一种名为边缘感知Transformer(EAFormer)的新型文本分割方法,旨在提高场景文本分割任务中文本边缘的准确性。EAFormer通过明确预测文本边缘并利用...
深度解读何恺明团队新作:不用向量离散化的自回归图像生成
在本文中,作者提出了一种新的自回归图像生成模型,该模型通过使用扩散模型来建模图像词元的分布,从而提高了生成能力。自回归模型在自然语言处理(NLP)中取...
八问八答搞懂Transformer内部运作原理
Sakana AI公司近期发表的论文《Transformer Layers as Painters》深入探讨了预训练Transformer模型中的信息流,并通过一系列实验,对仅解码器和仅编码器冻结...