MLC-LLM: 具有ML编译的通用LLM部署引擎

今日应用

一帧秒创是基于秒创AIGC引擎的智能AI内容生成平台，包含AI数字人、AI帮写、AI视频、AI作画等AIGC工具，可将百家号、公众号、头条号、搜狐号、新浪微博、小红书等文章一键转视频，一键生成数字人播报视频，为企业及自媒体提供一站式视频生产，全面提升内容创作效率。

今日话题

MLC-LLM: 具有ML编译的通用LLM部署引擎

重点标签 MLC LLM引擎、人工智能、机器学习、模型部署、多平台支持

文章摘要

在大型语言模型和生成式人工智能的时代，MLC LLM引擎（MLCEngine）的引入标志着通用LLM部署引擎的新篇章。MLCEngine旨在实现云端和本地环境中的高吞吐量、低延迟服务，同时无缝集成小型而性能强大的模型。通过即时模型编译，MLCEngine支持跨GPU类型和操作系统的工作，并提供广泛的模型系列，如Llama3、Mistral/Mixtral、Phi3、Qwen2、Gemma等。

MLCEngine采用Apache TVM的机器学习编译技术，自动生成适用于各种硬件和平台的便携式GPU库，并构建了一个便携式运行时架构，结合了业界领先的LLM服务优化和对云端及本地平台的最大可移植性。此外，MLCEngine提供了OpenAI风格的聊天完成API，支持多种编程语言环境，如Swift、Kotlin、Javascript等。

MLCEngine的API设计易于使用，包括云端的REST API服务器、Python API、iOS SDK、Android SDK和WebLLM SDK。这些API遵循相同的风格，允许开发人员在不同平台上拥有一致的开发体验。MLCEngine还支持高效的结构化生成，允许LLM生成符合JSON模式的响应，从而扩展了其在各种场景中的应用。

为了使LLM在各种平台上可访问，MLCEngine已在多个硬件上进行了验证，包括NVIDIA RTX 4090、NVIDIA Jetson Orin、NVIDIA T4、AMD 7900 XTX、Steam Deck和Orange Pi。MLCEngine的性能优化包括连续批处理、推测解码、分页KV管理、常见前缀缓存和级联推断，支持多GPU开箱即用，并在多个GPU上实现高性能。

MLC LLM项目的成功得益于开源社区的贡献，包括CMU Catalyst、OctoAI、UW SAMPL、SJTU等，MLC团队计划继续与社区合作，为所有人带来开放的基础模型。

文章来源

原文地址: 点我阅读全文
原文作者: AIGC最前线

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

MLC-LLM: 具有ML编译的通用LLM部署引擎

今日应用

今日话题

文章摘要

文章来源

来自OpenAI的可解释性新作：从GPT-4中提取概念！

ICML 2024：AI对齐与可变和可影响奖励函数

相关文章

暂无评论

热门网址

热门标签