Attention isn’t all you need！Mamba混合大模型开源：三倍Transformer吞吐量

今日应用

制片帮悦音是制片帮旗下配音产品品牌，可以在线将文字转成语音的智能配音产品。悦音配音提供男声女声童声、普通话，方言，英文等多语种的真人声音，在您输入文字后直接生成音频。是一款ai智能在线配音语音合成工具软件。为广告宣传片，短视频实现快速配音需求。

今日话题

Attention isn’t all you need！Mamba混合大模型开源：三倍Transformer吞吐量

重点标签 Jamba、Transformer、AI21 Labs、SSM、MoE

文章摘要

Jamba 是由 AI21 Labs 开发并开源的一种新型生成式人工智能模型，旨在解决传统 Transformer 架构的内存占用和推理速度问题。Jamba 结合了结构化状态空间模型（SSM）的 Mamba 模型和 transformer 架构，以提高长上下文上的吞吐量和效率。该模型在多个基准上超越了传统的 transformer，并已集成到 NVIDIA NIM 推理微服务中，便于企业应用程序开发人员部署。

模型架构与特点：
Jamba 模型采用块层方法，每个块包含一个注意力层或 Mamba 层，以及一个多层感知器（MLP）。通过使用 MoE（混合专家模型）技术，Jamba 在不增加计算需求的情况下提高了模型容量。MoE 层使得 Jamba 在推理时只需使用部分参数，从而优化了内存使用。Jamba 是首个将 Mamba 扩展到生产级规模的混合架构模型。

性能评估：
初步评估显示，Jamba 在长上下文上的吞吐量是 Mixtral 8x7B 的 3 倍，且在单个 GPU 上能够容纳高达 140K 上下文。这使得 Jamba 在效率和成本方面具有优势，尽管它不太可能完全取代当前的大型语言模型（LLM），但可能成为某些领域的有力补充。

首届中国具身智能大会（CEAI 2024）：
由中国人工智能学会（CAAI）主办的首届中国具身智能大会（CEAI 2024）将于 2024 年 3 月 30 日至 31 日在上海举行。大会旨在为具身智能领域的学术与产业界搭建交流合作平台，推动产学研联动发展。会议相关信息和注册方式可通过官方渠道获取。

文章来源

原文地址: 点我阅读全文
原文作者: 机器之心

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

Attention isn’t all you need！Mamba混合大模型开源：三倍Transformer吞吐量

今日应用

今日话题

文章摘要

文章来源

AI创业吧！不缺计算资源那种

马斯克大模型Grok1.5来了：推理能力大升级，支持128k上下文

相关文章

暂无评论

热门网址

热门标签