今日应用
今日话题
AI21推出基于Mamba架构的生产级大模型Jamba,52B参数,单卡140K上下文推理,模型开源!
重点标签 Jamba、Mamba、Transformer、生产级、大模型
文章摘要
Jamba是首个SSM-Transformer混合架构的生产级大模型,相比Mixtral 8x7B,在处理长上下文时吞吐量提高了3倍。它在单个GPU上可容纳高达140K上下文,是唯一一个做到这一点的模型。Jamba的权重是开源的,采用Apache 2.0开放权重,并在Hugging Face上可获得。
Jamba的发布标志着两个重要里程碑:成功将Mamba与Transformer架构结合,并推进到生产级规模和质量。传统的Transformer架构虽然强大,但存在内存占用大和推理速度慢的问题。Mamba模型解决了这些问题,但难以达到最好的输出质量。Jamba通过混合专家层优化了内存、吞吐量和性能。
AI21的Jamba架构采用了块和层的方法,每个Jamba块包含一个注意力或一个Mamba层,然后是一个多层感知器(MLP)。Jamba在推理时仅利用了其52B参数中的12B,比其他模型更高效。Jamba在吞吐量和效率方面表现出色,尤其是在长上下文上。
AI21实验室成立于2017年,由斯坦福大学的Yoav Shoham教授、CrowdX的Ori Goshen和Mobileye创始人Amnon Shashua教授共同创立。
文章来源
原文地址: 点我阅读全文
原文作者: AIGC最前线
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...