标签:Transformer

英伟达也对 Mamba下手了 ,视觉 Transformer 与 Mamba 的完美融合 !

MambaVision的核心贡献在于其创新的架构设计,它结合了Mamba和Transformer的优势,通过在最后几层加入自注意力块,有效提升了捕获长距离空间依赖关系的建模能...

Mamba真比Transformer更优吗?Mamba原作者:两个都要!混合架构才是最优解

近期,英伟达、CMU、普林斯顿等机构联合发表了一篇实证研究论文,对比了Mamba模型与Transformer架构在大规模预训练场景下的性能。Mamba模型自推出以来,因其...

多模态模型(VLM)部署方法抛砖引玉

摘要:本文深入探讨了多模态模型,特别是视觉语言模型(VLM)的架构、训练流程和部署方案。文章首先回顾了去年年初大型语言模型(LLM)的部署情况,并指出虽...

史上最快AI芯片「Sohu」,速度10倍于B200,哈佛辍学生打造

美国芯片创业公司Etched推出了其首款AI芯片Sohu,专为Transformer架构设计,性能显著超越现有GPU。Sohu芯片的推出,标志着AI芯片领域的一次重要突破,其性能...

麻省理工提出“跨层注意力”,极大优化Transformer缓存

摘要:专注于AIGC领域的专业社区关注了微软、OpenAI、百度文心一言、讯飞星火等大语言模型(LLM)的发展和应用落地,以及市场研究和AIGC开发者生态。其中,Tr...

谷歌推出基于Transformer的创新技术——无限注意力

Infini-Attention是谷歌基于Transformer提出的一种创新技术,旨在解决传统Transformer在处理超长序列数据时遇到的内存和计算瓶颈问题。通过融合压缩记忆、局...

AI研究的主要推动力会是什么?ChatGPT团队研究科学家:算力成本下降

步骤2:撰写摘要总结在斯坦福大学的《CS25: Transformers United V4》课程中,OpenAI研究科学家Hyung Won Chung分享了他对AI研究发展主要推动力的见解。Chung...

拯救Transformer推理能力!DeepMind新研究TransNAR:给模型嵌入「算法推理大脑」

TransNAR通过预训练NAR作为Transformer编码的调制器,并通过交叉注意力算子融合不同模态的信息。它接受文本形式的算法问题规范及其对应的图表征作为输入,并...

全面超越Transformer!清华蚂蚁推出纯MLP架构,长短程时序预测大幅提升

蚂蚁集团与清华大学联合推出了一种名为TimeMixer的纯MLP(多层感知机)架构模型,在时序预测的性能和效能上全面超越了Transformer模型。这一成果得益于TimeMi...

一文回顾2024年2D/3D生成方向工作进展

摘要总结:2023年末至2024年间,3D生成领域经历了显著的技术进步。在这一时期,DreamFusion等项目的成功推动了基于2D扩散模型的3D生成技术发展。这些技术通过...
123