内容纲要
一、显存计算公式
1、模型权重
权重显存(GB) = [模型参数量 x (模型参数精度/8)] / 1024^3
由于1B参数量 = 10^9 = 1000^3 ≈ 1024^3。所以简单计算,1B参数 = 1G内存
权重显存(GB) = 1G * 16fp / 8 = 2GB
2、KV缓存(单token 单并发)
KV(bytes)=2(K\V两份)×L(层数 num_layers)×H(头数 num_heads)×D(每头维度)×T(token数)×B(每元素字节 FP16=2)
2:K 和 Value 两份
L:层数(num_layers)
H:头数(num_heads)
D:每头维度(head_dim = hidden_size /num_heads)
T:序列长度(token 数)
B:每元素字节(FP16=2)
3、总显存
总显存消耗 = 权重显存 + KV缓存
