计算原理说明
大模型推理时的显存占用主要来自三个部分:
1. 模型参数所需显存
模型参数显存 = 模型参数量(B) × 参数精度(字节) × 10^9
2. 激活值所需显存
激活值显存 = 单请求Token长度 × 并发请求数 × 隐藏层维度 × 层数 × 激活复杂度系数 × 参数精度
注:激活复杂度系数通常为4-6,根据模型结构和实现方式有所不同
3. KV Cache 所需显存
KV Cache = 2 × 并发请求数 × Token长度 × 隐藏层维度 × 层数 × 参数精度
注:系数2表示需要存储Key和Value两部分缓存
4. 总显存需求
总显存需求 = (模型参数显存 + 激活值显存 + KV Cache) × 安全冗余系数
5. 需要的 GPU 数量
GPU 数量 = 向上取整(总显存需求 ÷ 单 GPU 显存容量)