贾扬清点赞:3K star量的SGLang上新,加速Llama 405B推理秒杀vLLM、TensorRT-LLM

AI最新资讯2个月前发布 tree
26 0 0

今日应用


今日话题


贾扬清点赞:3K star量的SGLang上新,加速Llama 405B推理秒杀vLLM、TensorRT-LLM
贾扬清点赞:3K star量的SGLang上新,加速Llama 405B推理秒杀vLLM、TensorRT-LLM
 

重点标签 SGLang Runtimev0.2版本开源项目性能提升AI研究

文章摘要


Meta公司最新开源的405B模型(Llama 3.1 405B)在性能上达到了新的高度,但同时也因其庞大的模型参数量带来了推理速度的挑战。为了解决这一问题,LMSYS Org团队推出了SGLang Runtime v0.2,这是一个针对大型语言模型(LLM)和视觉语言模型(VLM)的通用服务引擎。该引擎在运行Llama 3.1 405B时展现出了优于vLLM和TensorRT-LLM的吞吐量和延迟表现,在特定情况下,吞吐量甚至能达到TensorRT-LLM的2.1倍,vLLM的3.8倍。

SGLang Runtime v0.2的特点和优势:
1. 性能卓越:SGLang Runtime在处理Llama系列模型时,无论是在线还是离线场景,都能提供出色的性能,特别是在Llama-70B和Llama-405B模型上的表现尤为突出。
2. 用户友好:SGLang的设计注重易用性和可定制性,使得用户可以轻松地进行修改和部署。
3. 开源项目:作为一个完全开源的项目,SGLang采用Apache 2.0许可授权,核心调度器仅用不到4K行Python代码实现,便于社区参与和贡献。
4. 广泛应用:SGLang已被用于LMSYS Chatbot Arena、Databricks等多个平台和机构,支持数万亿token的迭代,加速了AI产品和研究的发展。

SGLang Runtime v0.2的开发背景:
LMSYS Org是一个由加州大学伯克利分校、加州大学圣地亚哥分校和卡内基梅隆大学的学生和教职员工组成的研究团体。他们通过运营Chatbot Arena平台,深刻理解了高效服务对AI产品和研究的重要性,并基于此开发了SGLang。

SGLang Runtime v0.2的基准测试结果:
在离线和在线用例的基准测试中,SGLang Runtime在多个数据集和模型规模上均展现出了卓越的性能。特别是在Llama-70B和Llama-405B模型上,SGLang的吞吐量和延迟表现均优于其他服务引擎。

SGLang Runtime v0.2的使用方法:
用户可以通过简单的步骤安装并使用SGLang Runtime,包括使用pip、源代码或Docker进行安装,启动服务器,并通过OpenAI兼容的API发送请求。

SGLang Runtime v0.2的未来展望:
LMSYS Org团队表示,他们将继续开发SGLang,增加对长上下文和MoE优化等新功能的支持,以进一步提升性能和可用性。

文章来源


原文地址: 点我阅读全文
原文作者: 机器之心

© 版权声明

相关文章

暂无评论

暂无评论...