标签:Transformer
英伟达也对 Mamba下手了 ,视觉 Transformer 与 Mamba 的完美融合 !
MambaVision的核心贡献在于其创新的架构设计,它结合了Mamba和Transformer的优势,通过在最后几层加入自注意力块,有效提升了捕获长距离空间依赖关系的建模能...
Mamba真比Transformer更优吗?Mamba原作者:两个都要!混合架构才是最优解
近期,英伟达、CMU、普林斯顿等机构联合发表了一篇实证研究论文,对比了Mamba模型与Transformer架构在大规模预训练场景下的性能。Mamba模型自推出以来,因其...
多模态模型(VLM)部署方法抛砖引玉
摘要:本文深入探讨了多模态模型,特别是视觉语言模型(VLM)的架构、训练流程和部署方案。文章首先回顾了去年年初大型语言模型(LLM)的部署情况,并指出虽...
史上最快AI芯片「Sohu」,速度10倍于B200,哈佛辍学生打造
美国芯片创业公司Etched推出了其首款AI芯片Sohu,专为Transformer架构设计,性能显著超越现有GPU。Sohu芯片的推出,标志着AI芯片领域的一次重要突破,其性能...
麻省理工提出“跨层注意力”,极大优化Transformer缓存
摘要:专注于AIGC领域的专业社区关注了微软、OpenAI、百度文心一言、讯飞星火等大语言模型(LLM)的发展和应用落地,以及市场研究和AIGC开发者生态。其中,Tr...
谷歌推出基于Transformer的创新技术——无限注意力
Infini-Attention是谷歌基于Transformer提出的一种创新技术,旨在解决传统Transformer在处理超长序列数据时遇到的内存和计算瓶颈问题。通过融合压缩记忆、局...
AI研究的主要推动力会是什么?ChatGPT团队研究科学家:算力成本下降
步骤2:撰写摘要总结在斯坦福大学的《CS25: Transformers United V4》课程中,OpenAI研究科学家Hyung Won Chung分享了他对AI研究发展主要推动力的见解。Chung...
拯救Transformer推理能力!DeepMind新研究TransNAR:给模型嵌入「算法推理大脑」
TransNAR通过预训练NAR作为Transformer编码的调制器,并通过交叉注意力算子融合不同模态的信息。它接受文本形式的算法问题规范及其对应的图表征作为输入,并...
全面超越Transformer!清华蚂蚁推出纯MLP架构,长短程时序预测大幅提升
蚂蚁集团与清华大学联合推出了一种名为TimeMixer的纯MLP(多层感知机)架构模型,在时序预测的性能和效能上全面超越了Transformer模型。这一成果得益于TimeMi...
一文回顾2024年2D/3D生成方向工作进展
摘要总结:2023年末至2024年间,3D生成领域经历了显著的技术进步。在这一时期,DreamFusion等项目的成功推动了基于2D扩散模型的3D生成技术发展。这些技术通过...