标签：Transformer

英伟达也对 Mamba下手了，视觉 Transformer 与 Mamba 的完美融合！

MambaVision的核心贡献在于其创新的架构设计，它结合了Mamba和Transformer的优势，通过在最后几层加入自注意力块，有效提升了捕获长距离空间依赖关系的建模能...

2周前

近期，英伟达、CMU、普林斯顿等机构联合发表了一篇实证研究论文，对比了Mamba模型与Transformer架构在大规模预训练场景下的性能。Mamba模型自推出以来，因其...

2周前

摘要：本文深入探讨了多模态模型，特别是视觉语言模型（VLM）的架构、训练流程和部署方案。文章首先回顾了去年年初大型语言模型（LLM）的部署情况，并指出虽...

2周前

美国芯片创业公司Etched推出了其首款AI芯片Sohu，专为Transformer架构设计，性能显著超越现有GPU。Sohu芯片的推出，标志着AI芯片领域的一次重要突破，其性能...

1个月前

摘要：专注于AIGC领域的专业社区关注了微软、OpenAI、百度文心一言、讯飞星火等大语言模型（LLM）的发展和应用落地，以及市场研究和AIGC开发者生态。其中，Tr...

1个月前

Infini-Attention是谷歌基于Transformer提出的一种创新技术，旨在解决传统Transformer在处理超长序列数据时遇到的内存和计算瓶颈问题。通过融合压缩记忆、局...

1个月前

步骤2：撰写摘要总结在斯坦福大学的《CS25: Transformers United V4》课程中，OpenAI研究科学家Hyung Won Chung分享了他对AI研究发展主要推动力的见解。Chung...

1个月前

TransNAR通过预训练NAR作为Transformer编码的调制器，并通过交叉注意力算子融合不同模态的信息。它接受文本形式的算法问题规范及其对应的图表征作为输入，并...

1个月前

蚂蚁集团与清华大学联合推出了一种名为TimeMixer的纯MLP（多层感知机）架构模型，在时序预测的性能和效能上全面超越了Transformer模型。这一成果得益于TimeMi...

1个月前

摘要总结：2023年末至2024年间，3D生成领域经历了显著的技术进步。在这一时期，DreamFusion等项目的成功推动了基于2D扩散模型的3D生成技术发展。这些技术通过...

1个月前

12 3