大模型 GPU 资源计算器

并发请求数:

同时处理的请求数量

单请求 Token 长度:

每个请求的输入+输出 Token 总数

模型参数量 (B):

模型的参数总量，单位为十亿 (B)

参数精度:

隐藏层维度:

Transformer 模型的隐藏层大小

层数:

Transformer 模型的层数

激活复杂度系数:

激活值计算的复杂度系数，通常为4-6

安全冗余系数:

预留显存冗余，建议 1.1-1.5 之间

单 GPU 显存容量 (GB):

单张 GPU 的显存容量，如 A100 40GB

模型本身所需显存:

26.00 GB

激活值所需显存:

20.48 GB

KV Cache 所需显存:

20.97 GB

总显存需求:

80.94 GB

需要的 GPU 数量:

3 张

计算原理说明

大模型推理时的显存占用主要来自三个部分：

1. 模型参数所需显存

模型参数显存 = 模型参数量(B) × 参数精度(字节) × 10^9

2. 激活值所需显存

激活值显存 = 单请求Token长度 × 并发请求数 × 隐藏层维度 × 层数 × 激活复杂度系数 × 参数精度

注：激活复杂度系数通常为4-6，根据模型结构和实现方式有所不同

3. KV Cache 所需显存

KV Cache = 2 × 并发请求数 × Token长度 × 隐藏层维度 × 层数 × 参数精度

注：系数2表示需要存储Key和Value两部分缓存

4. 总显存需求

总显存需求 = (模型参数显存 + 激活值显存 + KV Cache) × 安全冗余系数

5. 需要的 GPU 数量

GPU 数量 = 向上取整(总显存需求 ÷ 单 GPU 显存容量)