标签:Transformer

Attention优化|2w字原理&图解: 从Online-Softmax到FlashAttention V1/V2/V3

文章首先从Online-Softmax的角度切入,逐步深入讲解了3-pass Safe-Softmax、2-pass Online-Softmax以及1-pass FlashAttention的原理。接着,详细讲解了FlashA...

ICLR’24 Spotlight|PixArt-α:文生图扩散 Transformer 架构的快速训练

PixArt-α是一种由华为诺亚方舟实验室、香港大学和香港科技大学共同研发的文生图(Text-to-Image, T2I)扩散Transformer架构。该模型在训练速度、图像质量、艺...

原作者带队,LSTM真杀回来了!

步骤2:撰写摘要总结xLSTM:LSTM的重生与进化在20世纪90年代,长短时记忆(LSTM)方法引入了恒定误差选择轮盘和门控的核心思想,为深度学习的成功案例做出了...

重磅!Llama-3,最强开源大模型正式发布!

步骤2:撰写摘要Meta公司在官网发布了一款名为Llama-3的开源大模型,该模型专注于AIGC(人工智能生成内容)领域。Llama-3有两种参数规模,分别为80亿和700亿...

DeepMind升级Transformer,前向通过FLOPs最多可降一半

DeepMind 的最新研究提出了一种名为 Mixture-of-Depths(MoD)的 Transformer 改进方法,旨在提高语言模型的计算效率。MoD 通过动态地为每个 token 分配计算...

直接扩展到无限长,谷歌Infini-Transformer终结上下文长度之争

自 2017 年《Attention is All You Need》论文问世以来,Transformer 架构一直主导着生成式人工智能领域。谷歌对 Transformer 的优化设计最近比较频繁,几天...

CVPR 2024满分论文,英伟达开源BOP排行榜6D物体姿态第一名方法

方法介绍FoundationPose是一个统一的大模型,支持6D物体姿态估计和跟踪,适用于新颖物体。它通过神经隐式表示来弥合基于模型和无模型设置之间的差距,允许有...

华为诺亚频域LLM「帝江」:仅需1/50训练成本,7B模型媲美LLaMA,推理加速5倍

研究背景大型语言模型(LLMs)在自然语言处理(NLP)领域取得了显著成果,但随着模型规模的扩大,计算需求也随之增加。现有优化 Transformer 的方法,如线性 ...

谁将替代 Transformer?

摘要:本文探讨了Transformer架构在人工智能领域的主导地位及其面临的挑战。自2017年谷歌发表《Attention Is All You Need》以来,Transformer已成为NLP研究...

Attention isn’t all you need!Mamba混合大模型开源:三倍Transformer吞吐量

Jamba 是由 AI21 Labs 开发并开源的一种新型生成式人工智能模型,旨在解决传统 transformer 架构的内存占用和推理速度问题。Jamba 结合了结构化状态空间模型...
12