图解大模型计算加速系列：vLLM源码解析1，整体架构

今日应用

"YOO简历 - 智能匹配岗位的个人求职简历模板，免费下载，助您快速踏入职业成功之路！

图解大模型计算加速系列：vLLM源码解析1，整体架构

重点标签 vLLM源码解析、vLLM介绍、vLLM原理

极市导读
作者尽量少涉及对源码本身的解读，把源码中的信息总结出来，配合图例做整体介绍。如果读者对vLLM代码有整体把握的需求，这篇文章可以提供帮助。

一、调用vLLM的两种方式
– Offline Batched Inference（同步，离线批处理）
– API Server For Online Serving（异步，在线推理服务）

二、vLLM代码整体架构
– Centralized Controller：调度器，负责在每个推理阶段决定数据分配和KV Cache物理块分配。
– Distributed Workers：分布式系统，每个worker相当于一块gpu，负责模型加载和推理。

三、加载模型与预分配显存
– 加载模型：将base model加载到worker上。
– 预分配显存：通过模拟实验预估gpu/cpu上可分配的KV cache物理块数量，并在gpu上预分配显存。

四、Scheduler调度
– 调度器根据当前gpu资源情况，决定哪些数据可以进行推理，并处理数据的swap操作。

本文为读者提供了vLLM代码架构的概览，后续文章将深入探讨具体细节。

原文地址: 点我阅读全文
原文作者: 极市平台

文章版权归作者所有，未经允许请勿转载。

暂无评论...