AI21推出基于Mamba架构的生产级大模型Jamba,52B参数,单卡140K上下文推理,模型开源!

AI最新资讯4个月前发布 tree
43 0 0

今日应用


今日话题


AI21推出基于Mamba架构的生产级大模型Jamba,52B参数,单卡140K上下文推理,模型开源!
AI21推出基于Mamba架构的生产级大模型Jamba,52B参数,单卡140K上下文推理,模型开源!
 

重点标签 JambaMambaTransformer生产级大模型

文章摘要


Jamba是首个SSM-Transformer混合架构的生产级大模型,相比Mixtral 8x7B,在处理长上下文时吞吐量提高了3倍。它在单个GPU上可容纳高达140K上下文,是唯一一个做到这一点的模型。Jamba的权重是开源的,采用Apache 2.0开放权重,并在Hugging Face上可获得。

Jamba的发布标志着两个重要里程碑:成功将MambaTransformer架构结合,并推进到生产级规模和质量。传统的Transformer架构虽然强大,但存在内存占用大和推理速度慢的问题。Mamba模型解决了这些问题,但难以达到最好的输出质量。Jamba通过混合专家层优化了内存、吞吐量和性能。

AI21的Jamba架构采用了块和层的方法,每个Jamba块包含一个注意力或一个Mamba层,然后是一个多层感知器(MLP)。Jamba在推理时仅利用了其52B参数中的12B,比其他模型更高效。Jamba在吞吐量和效率方面表现出色,尤其是在长上下文上。

AI21实验室成立于2017年,由斯坦福大学的Yoav Shoham教授、CrowdX的Ori Goshen和Mobileye创始人Amnon Shashua教授共同创立。

文章来源


原文地址: 点我阅读全文
原文作者: AIGC最前线

© 版权声明

相关文章

暂无评论

暂无评论...