大模型 GPU 资源计算器

同时处理的请求数量
每个请求的输入+输出 Token 总数
模型的参数总量,单位为十亿 (B)
Transformer 模型的隐藏层大小
Transformer 模型的层数
激活值计算的复杂度系数,通常为4-6
预留显存冗余,建议 1.1-1.5 之间
单张 GPU 的显存容量,如 A100 40GB
模型本身所需显存:
26.00 GB
激活值所需显存:
20.48 GB
KV Cache 所需显存:
20.97 GB
总显存需求:
80.94 GB
需要的 GPU 数量:
3 张

计算原理说明

大模型推理时的显存占用主要来自三个部分:

1. 模型参数所需显存

模型参数显存 = 模型参数量(B) × 参数精度(字节) × 10^9

2. 激活值所需显存

激活值显存 = 单请求Token长度 × 并发请求数 × 隐藏层维度 × 层数 × 激活复杂度系数 × 参数精度

注:激活复杂度系数通常为4-6,根据模型结构和实现方式有所不同

3. KV Cache 所需显存

KV Cache = 2 × 并发请求数 × Token长度 × 隐藏层维度 × 层数 × 参数精度

注:系数2表示需要存储Key和Value两部分缓存

4. 总显存需求

总显存需求 = (模型参数显存 + 激活值显存 + KV Cache) × 安全冗余系数

5. 需要的 GPU 数量

GPU 数量 = 向上取整(总显存需求 ÷ 单 GPU 显存容量)