今日应用
今日话题
MLC-LLM: 具有ML编译的通用LLM部署引擎
重点标签 MLC LLM引擎、人工智能、机器学习、模型部署、多平台支持
文章摘要
在大型语言模型和生成式人工智能的时代,MLC LLM引擎(MLCEngine)的引入标志着通用LLM部署引擎的新篇章。MLCEngine旨在实现云端和本地环境中的高吞吐量、低延迟服务,同时无缝集成小型而性能强大的模型。通过即时模型编译,MLCEngine支持跨GPU类型和操作系统的工作,并提供广泛的模型系列,如Llama3、Mistral/Mixtral、Phi3、Qwen2、Gemma等。
MLCEngine采用Apache TVM的机器学习编译技术,自动生成适用于各种硬件和平台的便携式GPU库,并构建了一个便携式运行时架构,结合了业界领先的LLM服务优化和对云端及本地平台的最大可移植性。此外,MLCEngine提供了OpenAI风格的聊天完成API,支持多种编程语言环境,如Swift、Kotlin、Javascript等。
MLCEngine的API设计易于使用,包括云端的REST API服务器、Python API、iOS SDK、Android SDK和WebLLM SDK。这些API遵循相同的风格,允许开发人员在不同平台上拥有一致的开发体验。MLCEngine还支持高效的结构化生成,允许LLM生成符合JSON模式的响应,从而扩展了其在各种场景中的应用。
为了使LLM在各种平台上可访问,MLCEngine已在多个硬件上进行了验证,包括NVIDIA RTX 4090、NVIDIA Jetson Orin、NVIDIA T4、AMD 7900 XTX、Steam Deck和Orange Pi。MLCEngine的性能优化包括连续批处理、推测解码、分页KV管理、常见前缀缓存和级联推断,支持多GPU开箱即用,并在多个GPU上实现高性能。
MLC LLM项目的成功得益于开源社区的贡献,包括CMU Catalyst、OctoAI、UW SAMPL、SJTU等,MLC团队计划继续与社区合作,为所有人带来开放的基础模型。
文章来源
原文地址: 点我阅读全文
原文作者: AIGC最前线