Attention isn’t all you need!Mamba混合大模型开源:三倍Transformer吞吐量

AI最新资讯7个月前发布 tree
69 0 0

今日应用


今日话题


Attention isn’t all you need!Mamba混合大模型开源:三倍Transformer吞吐量
Attention isn’t all you need!Mamba混合大模型开源:三倍Transformer吞吐量
 

重点标签 JambaTransformerAI21 LabsSSMMoE

文章摘要


Jamba 是由 AI21 Labs 开发并开源的一种新型生成式人工智能模型,旨在解决传统 Transformer 架构的内存占用和推理速度问题。Jamba 结合了结构化状态空间模型(SSM)的 Mamba 模型和 transformer 架构,以提高长上下文上的吞吐量和效率。该模型在多个基准上超越了传统的 transformer,并已集成到 NVIDIA NIM 推理微服务中,便于企业应用程序开发人员部署。

模型架构与特点:
Jamba 模型采用块层方法,每个块包含一个注意力层或 Mamba 层,以及一个多层感知器(MLP)。通过使用 MoE(混合专家模型)技术,Jamba 在不增加计算需求的情况下提高了模型容量。MoE 层使得 Jamba 在推理时只需使用部分参数,从而优化了内存使用。Jamba 是首个将 Mamba 扩展到生产级规模的混合架构模型。

性能评估:
初步评估显示,Jamba 在长上下文上的吞吐量是 Mixtral 8x7B 的 3 倍,且在单个 GPU 上能够容纳高达 140K 上下文。这使得 Jamba 在效率和成本方面具有优势,尽管它不太可能完全取代当前的大型语言模型(LLM),但可能成为某些领域的有力补充。

首届中国具身智能大会(CEAI 2024):
由中国人工智能学会(CAAI)主办的首届中国具身智能大会(CEAI 2024)将于 2024 年 3 月 30 日至 31 日在上海举行。大会旨在为具身智能领域的学术与产业界搭建交流合作平台,推动产学研联动发展。会议相关信息和注册方式可通过官方渠道获取。

文章来源


原文地址: 点我阅读全文
原文作者: 机器之心

© 版权声明

相关文章

暂无评论

暂无评论...