图解大模型计算加速系列:vLLM源码解析1,整体架构

AI最新资讯1个月前发布 tree
27 0 0

今日应用


今日话题


图解大模型计算加速系列:vLLM源码解析1,整体架构
图解大模型计算加速系列:vLLM源码解析1,整体架构
 

重点标签 vLLM源码解析vLLM介绍vLLM原理

文章摘要


极市导读
作者尽量少涉及对源码本身的解读,把源码中的信息总结出来,配合图例做整体介绍。如果读者对vLLM代码有整体把握的需求,这篇文章可以提供帮助。

一、调用vLLM的两种方式
Offline Batched Inference(同步,离线批处理)
API Server For Online Serving(异步,在线推理服务)

二、vLLM代码整体架构
Centralized Controller:调度器,负责在每个推理阶段决定数据分配和KV Cache物理块分配。
Distributed Workers:分布式系统,每个worker相当于一块gpu,负责模型加载和推理。

三、加载模型与预分配显存
加载模型:将base model加载到worker上。
预分配显存:通过模拟实验预估gpu/cpu上可分配的KV cache物理块数量,并在gpu上预分配显存。

四、Scheduler调度
– 调度器根据当前gpu资源情况,决定哪些数据可以进行推理,并处理数据的swap操作。

本文为读者提供了vLLM代码架构的概览,后续文章将深入探讨具体细节。

文章来源


原文地址: 点我阅读全文
原文作者: 极市平台

© 版权声明

相关文章

暂无评论

暂无评论...