AI21推出基于Mamba架构的生产级大模型Jamba，52B参数，单卡140K上下文推理，模型开源！

AI最新资讯7个月前发布 tree

77 0 0

今日应用

盘友圈

一键搜索阿里云盘、百度网盘、夸克网盘中的资源

今日话题

AI21推出基于Mamba架构的生产级大模型 Jamba，52B参数，单卡140K上下文推理，模型开源！
AI21推出基于Mamba架构的生产级大模型Jamba，52B参数，单卡140K上下文推理，模型开源！

重点标签 Jamba、Mamba、Transformer、生产级、大模型

文章摘要

Jamba是首个SSM-Transformer混合架构的生产级大模型，相比Mixtral 8x7B，在处理长上下文时吞吐量提高了3倍。它在单个GPU上可容纳高达140K上下文，是唯一一个做到这一点的模型。Jamba的权重是开源的，采用Apache 2.0开放权重，并在Hugging Face上可获得。

Jamba的发布标志着两个重要里程碑：成功将Mamba与Transformer架构结合，并推进到生产级规模和质量。传统的Transformer架构虽然强大，但存在内存占用大和推理速度慢的问题。Mamba模型解决了这些问题，但难以达到最好的输出质量。Jamba通过混合专家层优化了内存、吞吐量和性能。

AI21的Jamba架构采用了块和层的方法，每个Jamba块包含一个注意力或一个Mamba层，然后是一个多层感知器（MLP）。Jamba在推理时仅利用了其52B参数中的12B，比其他模型更高效。Jamba在吞吐量和效率方面表现出色，尤其是在长上下文上。

AI21实验室成立于2017年，由斯坦福大学的Yoav Shoham教授、CrowdX的Ori Goshen和Mobileye创始人Amnon Shashua教授共同创立。

文章来源

原文地址: 点我阅读全文
原文作者: AIGC最前线

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

AI21推出基于Mamba架构的生产级大模型Jamba，52B参数，单卡140K上下文推理，模型开源！

今日应用

今日话题

文章摘要

文章来源

Jason Wei点赞！Google DeepMind推出新的大模型幻觉评估方案，模型越大越事实精准

AI创业吧！不缺计算资源那种

相关文章

暂无评论

热门网址

热门标签