阅读视图

发现新文章，点击刷新页面。

大模型并发场景GPU显存资源计算

安志合的学习博客

anzhihe

2026年3月20日 10:30

前面两篇文章主要介绍了大模型GPU资源需求计算及使用场景：大模型GPU显存算力需求计算 | 大模型推理资源需求计算及使用场景示例。

在常见并发推理场景中，显存需求会随着并发数的增加而显著增长，因为KV Cache是显存占用的主要变量。下面我们来系统性地介绍并发推理的显存计算方法，并通过7B、32B、70B三个模型的示例进行全面评估。

一、并发推理显存计算核心公式

1.1 总显存构成

总显存 = 模型参数 + KV Cache + 中间激活值 + 系统开销

1.2 KV Cache显存计算公式

KV Cache是并发场景下显存增长的主要来源，其精确计算公式如下-7：

KV Cache显存(GB) = 2 × 最大并发请求数 × 序列长度 × 层数 × 隐层维度 × 精度字节数 ÷ (1024³)

其中：

2：Key和Value两份缓存
最大并发请求数：服务能同时处理的请求数量
序列长度：输入+输出的总token数
层数：Transformer层数
隐层维度：每个token的表示维度
精度字节数：FP16为2，INT8为1

KV Cache 大小和 并发数有关，和 batch size 无关；batch 只影响一次计算的规模，不改变 KV 总量。

概念	并发数 (active_sequences)	Batch size
定义	系统中当前“活着”的序列总数	单次计算合并处理的序列数
影响	决定需要多少份 KV Cache	决定一次矩阵大小和吞吐
增长关系	KV Cache ∝ 并发数 × 序列长度	与 KV Cache 无关
举例	100 用户并发 → 100 份 KV	batch=16 只是一次算16条，KV 总量仍=100

1.3 vLLM的内存分配机制

vLLM通过gpu_memory_utilization参数控制显存分配-7：

可用显存 = 总GPU显存 × gpu_memory_utilization
模型权重显存 + KV Cache显存 ≤ 可用显存

通常设置gpu_memory_utilization = 0.8-0.9，预留部分显存用于系统开销和中间激活值-7 -8。

1.4 CPU与内存需求

CPU核心：建议≥并发数/2，用于数据预处理和调度
系统内存：需存储模型权重副本（用于CPU卸载场景）和数据缓存

二、7B模型并发推理资源需求

以Llama 2-7B或DeepSeek-7B为例，假设模型配置：

层数：32
隐层维度：4096
精度：FP16（2字节/参数）

2.1 不同并发数的显存需求

并发数	KV Cache显存公式	KV Cache显存	参数显存	总显存需求	说明
1	2×1×2048×32×4096×2÷(1024³)	1.0GB	14GB	~16GB	单用户场景
4	2×4×2048×32×4096×2÷(1024³)	4.0GB	14GB	~19GB	小团队使用
8	2×8×2048×32×4096×2÷(1024³)	8.0GB	14GB	~23GB	中等负载
16	2×16×2048×32×4096×2÷(1024³)	16.0GB	14GB	~31GB	高并发场景

2.2 资源需求总览

并发数	GPU显存需求	推荐GPU配置	CPU核心	系统内存	适用场景
4	19GB	1×RTX 4090 24GB	4-8核	32GB	个人API服务
8	23GB	1×RTX 4090 24GB	8核	64GB	中小团队
16	31GB	1×A100 40GB 或 2×RTX 4090	8-16核	64-128GB	企业级服务

优化提示：当并发数超过8时，单张RTX 4090 24GB已接近极限，建议使用张量并行（TP）分散到多卡-1。

三、32B模型并发推理资源需求

以Qwen-32B或DeepSeek-32B为例，假设模型配置：

层数：64
隐层维度：5120
精度：FP16（2字节/参数）

3.1 不同并发数的显存需求

并发数	KV Cache显存公式	KV Cache显存	参数显存	总显存需求	说明
1	2×1×2048×64×5120×2÷(1024³)	2.5GB	64GB	~67GB	单用户场景
4	2×4×2048×64×5120×2÷(1024³)	10.0GB	64GB	~75GB	小团队使用
8	2×8×2048×64×5120×2÷(1024³)	20.0GB	64GB	~85GB	中等负载
16	2×16×2048×64×5120×2÷(1024³)	40.0GB	64GB	~105GB	高并发场景

3.2 资源需求总览

并发数	GPU显存需求	推荐GPU配置	CPU核心	系统内存	适用场景
4	75GB	1×A100 80GB	8-16核	128GB	企业API服务
8	85GB	2×A100 40GB（TP=2）	16核	256GB	中型负载
16	105GB	2×A100 80GB（TP=2）	16-32核	256-512GB	高并发场景

vLLM配置示例（2×A100 80GB）-1：

vllm serve Qwen-32B \
  --tensor-parallel-size 2 \
  --max-num-seqs 16 \
  --gpu-memory-utilization 0.9

四、70B模型并发推理资源需求

以Llama 2-70B或DeepSeek-70B为例，假设模型配置：

层数：80
隐层维度：8192
精度：FP16（2字节/参数）

4.1 不同并发数的显存需求

并发数	KV Cache显存公式	KV Cache显存	参数显存	总显存需求	说明
1	2×1×2048×80×8192×2÷(1024³)	5.0GB	140GB	~146GB	单用户场景
4	2×4×2048×80×8192×2÷(1024³)	20.0GB	140GB	~161GB	小团队使用
8	2×8×2048×80×8192×2÷(1024³)	40.0GB	140GB	~181GB	中等负载
16	2×16×2048×80×8192×2÷(1024³)	80.0GB	140GB	~221GB	高并发场景

4.2 资源需求总览

并发数	GPU显存需求	推荐GPU配置	CPU核心	系统内存	适用场景
4	161GB	2×A100 80GB（TP=2）	16-32核	256GB	企业API服务
8	181GB	4×A100 40GB（TP=4）	32核	512GB	中型负载
16	221GB	4×A100 80GB（TP=4）	32-64核	1TB	高并发场景

五、MoE模型（如DeepSeek-V3）的特殊考量

混合专家模型（MoE）的并发推理显存计算与稠密模型有所不同-6 -9：

5.1 MoE模型显存构成

总显存 = 共享参数 + 专家参数 + KV Cache + 路由开销

其中：

共享参数：嵌入层、注意力层等（约占30-50%）
专家参数：分布在多卡上，通过专家并行（EP）优化-6
路由开销：存储专家负载和路由概率，通常小于1%总显存-9

5.2 并行策略选择

并发场景	推荐并行策略	说明
低并发（<4）	TP + EP	延迟优先，每个请求由所有GPU协同处理-6
高并发（≥8）	DP + EP	吞吐优先，多组GPU副本并行处理不同请求-6

5.3 资源估算示例（DeepSeek-V3 671B）

假设模型配置-9：

专家数量E=256，每个专家参数量约2.6B
共享参数量约300B
精度：FP8（1字节/参数）
激活专家数K=8（Top-8路由）

并发数	显存需求	推荐GPU配置（EP并行）	CPU核心	系统内存
4	~350GB	8×A100 80GB（EP=8）	32核	512GB
8	~380GB	8×A100 80GB（EP=8）	32-64核	1TB
16	~450GB	16×A100 80GB（EP=16）	64核+	2TB+

关键提示：MoE模型通过专家并行（EP）可将专家参数分散到多卡，大幅降低单卡显存压力-6 -9。

六、并发推理优化策略

6.1 vLLM核心参数调优

参数	作用	推荐值	说明
`gpu_memory_utilization`	显存利用率	0.8-0.9	预留10-20%用于系统开销-7
`max_num_seqs`	最大并发数	根据显存计算	控制KV Cache上限-8
`max_num_batched_tokens`	批处理token上限	4096-8192	平衡吞吐与延迟-8
`tensor_parallel_size`	张量并行度	2/4/8	模型放不下时启用-1
`enable_expert_parallel`	专家并行开关	True（MoE模型）	对DeepSeek等MoE模型有效

6.2 量化技术

量化精度	参数显存减少	KV Cache显存减少	适用场景
INT8	50%	50%	高并发、追求吞吐
INT4	75%	75%	超大模型、资源受限

6.3 抢占与分块预填充

当KV Cache空间不足时，vLLM会触发抢占（Preemption）机制-8。为避免性能下降：

适当提高gpu_memory_utilization
启用分块预填充（Chunked Prefill）平衡预填充和解码请求-8

七、快速参考表

不同并发度下的显存需求速查（FP16）

模型规模	参数显存	并发1	并发4	并发8	并发16
7B	14GB	16GB	19GB	23GB	31GB
32B	64GB	67GB	75GB	85GB	105GB
70B	140GB	146GB	161GB	181GB	221GB

模型规模	目标并发	GPU配置	CPU核心	系统内存
7B	8	1×RTX 4090 24GB	8核	64GB
7B	16	2×RTX 4090 24GB（TP=2）	16核	128GB
32B	8	2×A100 40GB（TP=2）	16核	256GB
32B	16	2×A100 80GB（TP=2）	32核	512GB
70B	8	4×A100 40GB（TP=4）	32核	512GB
70B	16	4×A100 80GB（TP=4）	64核	1TB

总结

并发推理显存核心公式：总显存 ≈ 参数显存 + 2×并发数×序列长度×层数×隐层维度×精度
KV Cache是并发场景下的主要变量，与并发数成正比增长
vLLM通过gpu_memory_utilization和max_num_seqs参数控制显存分配-7 -8
MoE模型需结合专家并行（EP）优化-6，显存计算需考虑共享参数和专家参数的分布
CPU和内存需求：CPU核心数建议≥并发数/2，系统内存需能容纳完整模型权重

参考：

大模型推理资源需求计算及使用场景示例

安志合的学习博客

anzhihe

2026年3月10日 01:43

上一篇我们了解了大模型GPU显存算力需求计算，这次我们把CPU和内存的需求也一起纳入考量。在异构计算（CPU+GPU协同）和纯CPU推理日益普及的今天，了解这三者的需求对于在不同硬件上部署大模型至关重要。

一、三大资源的核心作用与估算原则

在估算之前，我们需要明确CPU、内存和GPU显存在模型推理中分别扮演什么角色：

GPU显存：主要用于存储模型参数、KV Cache以及计算过程中的中间激活值-7。它是决定模型能否在GPU上运行的核心瓶颈。
系统内存 (RAM)：

在纯CPU推理时，内存需要容纳整个模型，其需求与模型大小直接相关-5 -8。
在GPU显存不足时（如使用CPU卸载或异构计算），内存需要存储完整的模型权重，并实时与GPU进行数据传输-3 -7。

CPU：

负责数据调度、指令下发，并在异构计算场景下承担部分计算任务（如MoE专家层计算、Attention计算），以避免GPU因等待数据传输而空闲-3 -10。CPU的核心数和指令集（如AVX2, AMX）直接影响卸载计算的效率-5。

二、综合资源需求估算方法

下面通过几个典型的部署场景，展示如何同时估算这三项资源的需求。

场景一：纯GPU推理（高性能，低延迟）

这是最经典的场景，模型完全加载在GPU上。CPU和内存主要负责管理，负载较轻。

硬件配置：单张或多张高性能GPU（如RTX 4090, A100）
工作机制：模型权重完全驻留在GPU显存，计算全部在GPU上完成-4。

估算示例：DeepSeek-R1 14B (FP16)

资源类型	估算公式 / 依据	估算需求	备注
GPU显存	参数显存 + KV Cache + 预留	~ 16-18 GB	根据实测，14B FP16模型约需28GB显存 4，但通过优化可降低。此处按常规推理估算。
系统内存	操作系统 + 数据传输缓冲	16 - 32 GB	主要用于加载模型时的临时存放和系统开销。建议16GB起步，32GB更充裕4。
CPU	处理数据加载、指令下发	8核以上	避免CPU成为瓶颈，影响GPU Utilization4。

场景二：CPU + GPU 异构推理（以显存换内存，突破单卡限制）

这是当前的热门方案，通过将部分计算（尤其是MoE模型的专家层）卸载到CPU和内存，让显存较小的GPU也能运行超大模型-3 -6。

硬件配置：消费级GPU（如RTX 3090 24GB） + 大容量内存 + 高性能多核CPU
工作机制：模型完全存储在系统内存中。GPU仅存储Attention等核心层和部分专家，计算时按需从内存拉取数据-6 -10。

估算示例：DeepSeek-V3/R1 (671B MoE, 量化版) -3

资源类型	估算公式 / 依据	估算需求	备注
GPU显存	存储Attention层 + 部分常驻专家	~ 24 GB	英特尔方案显示，配合HeteroFlow可在24GB显卡上运行3。llama.cpp实测也表明，通过`--n-cpu-moe`参数可将MoE层卸载，显存占用控制在24GB内6。
系统内存	存储完整模型权重	~ 140 - 200 GB	671B模型即便经过量化，其权重也需要大量内存。华为云的方案中，为类似大规模模型分配了1000Gi内存1。具体取决于量化精度。
CPU	处理卸载的MoE层计算	高主频，多核心 (如16核以上)	MoE层计算对CPU吞吐量要求高10。Intel方案推荐使用支持AMX指令集的至强® 6 CPU以加速3。llama.cpp测试显示，CPU核心数直接决定卸载后的推理速度10。

场景三：纯CPU推理（极致低成本，边缘计算）

完全不依赖GPU，仅用CPU和内存运行模型，适合资源受限或成本敏感的场景-5 -8。

硬件配置：任何带有CPU的计算机（从树莓派到高性能服务器）
工作机制：模型通过极致量化（如INT4）大幅缩小体积，完全在CPU内存中运行，利用CPU指令集（如AVX2）进行计算-5 -8。

估算示例：DeepSeek-R1-7B (INT4 量化版) -5 -8

资源类型	估算公式 / 依据	估算需求	备注
GPU显存	不涉及GPU	0 GB	完全不需要显卡5。
系统内存	量化后模型大小 + 运行时开销	2 - 4 GB	7B模型经4位量化后约3.5GB8。通过分块加载等优化，实际运行内存可控制在2GB以内5 8。
CPU	执行所有模型计算	4核以上，支持AVX2指令集	用于执行所有推理计算。多核能显著提升推理速度5。在树莓派5（8GB RAM）上实测可运行5。

场景四：极轻量级模型（1-bit时代的新选择）

微软的BitNet b1.58 1-bit模型展示了未来模型在CPU上运行的巨大潜力-9。

工作机制：采用1.58-bit权重，模型体积极度缩小。

估算示例：BitNet b1.58 2B4T (20亿参数) -9

资源类型	估算需求	备注
GPU显存	0 GB (或不必须)	专为CPU高效运行设计。
系统内存	~ 400 MB	仅需400MB非嵌入式内存，远小于同类模型-9。
CPU	普通处理器 (如Apple M2)	可在Apple M2芯片上高效运行-9，对CPU要求极低。

三、快速查询表

为了方便快速估算，以下整理了不同部署方式和模型规模下的资源需求概览：

部署模式	代表模型与精度	GPU显存需求	系统内存需求	CPU需求	典型场景	数据来源
纯GPU推理	7B (FP16)	~14-16 GB	16-32 GB	8核以上	高性能本地部署	4
纯GPU推理	14B (FP16)	~28-32 GB	32 GB+	8核以上	工作站、研究	4
CPU+GPU异构	70B MoE (量化)	~24 GB	64-128 GB+	16核以上，高带宽内存支持	单卡跑超大模型	3 6
CPU+GPU异构	120B MoE (量化)	~24 GB	64 GB+	高性能多核CPU (如EPYC)	消费级硬件玩转千亿模型	6
纯CPU推理	7B (INT4)	0 GB	2-4 GB	4核以上，支持AVX2	边缘设备、低成本服务器	5 8
纯CPU推理	1.5B (1.58-bit)	0 GB	< 1 GB	任何现代CPU	物联网、极低功耗设备	9

[zkqw]

大模型资源计算需求使用场景示例

一、7B模型资源需求示例（以Llama 2-7B / DeepSeek-7B为例）

场景1：纯GPU推理（FP16精度）

资源类型	计算公式	需求估算	说明
GPU显存	参数(14GB) + KV Cache(~1.5GB) + 激活值(~1.5GB) + 其他(1GB)	~18GB	Batch Size=1，序列长度2048-9
CPU核心	数据加载与调度	4-8核	消费级CPU即可满足
系统内存	操作系统+数据缓冲	16-32GB	用于加载模型时的临时存放

实际配置建议：RTX 4090 24GB单卡即可流畅运行，推理速度可达25-30 tokens/s-5

场景2：LoRA微调（参数高效）

资源类型	计算公式	需求估算	说明
GPU显存	基础模型(14GB) + LoRA参数(~0.1GB) + 梯度(0.1GB) + 优化器(0.4GB) + 激活值(~1.5GB)	~16GB	仅训练约0.1-1%的参数-2 -9
CPU核心	数据预处理与加载	8核	建议支持AVX2指令集
系统内存	存储原始模型+数据集	32-64GB	用于数据集缓存和混合精度卸载

实际配置建议：RTX 4090 24GB单卡可轻松承载，消费级微调首选方案-9

场景3：全量微调（混合精度）

资源类型	计算公式	需求估算	说明
GPU显存	参数(14GB) + 梯度(14GB) + 优化器(56GB) + 激活值(~7GB) + 其他(2GB)	~93GB	采用AdamW优化器，Batch Size=4-2 -9
GPU数量	显存需求÷单卡显存	2×A100 40GB 或 4×RTX 4090 24GB	需张量并行或ZeRO-3-5
CPU核心	≥16核	16-32核	推荐Intel Xeon或AMD EPYC
系统内存	≥ GPU显存总量	128GB	支持ZeRO-Offload和数据集缓存

技术突破：GaLore技术可在24GB显存上实现7B全量训练，优化器状态内存减少65.5%-9

二、32B模型资源需求示例（以DeepSeek-32B / Qwen-32B为例）

场景1：纯GPU推理（FP16精度）

资源类型	计算公式	需求估算	说明
GPU显存	参数(64GB) + KV Cache(~3GB) + 激活值(~6GB) + 其他(2GB)	~75GB	Batch Size=1，序列长度2048-2 -5
GPU数量	1×A100 80GB 或 2×RTX 4090 24GB（模型并行）	单卡80GB或双卡并行	双卡方案需张量并行-5
CPU核心	数据调度	8-16核	双卡并行时需更多CPU线程
系统内存	模型临时加载	64-128GB	存储完整模型权重

实测性能：A100 80GB单卡推理延迟约650ms，吞吐量12 tokens/s-5

场景2：QLoRA微调（4-bit量化）

资源类型	计算公式	需求估算	说明
GPU显存	4-bit参数(16GB) + LoRA参数(~0.3GB) + 优化器(~1.2GB) + 激活值(~3GB)	~20-24GB	使用GPTQ/AWQ量化，微调约0.5%参数-2 -6
GPU数量	1×RTX 4090 24GB 或 1×A6000 48GB	单卡可行	消费级显卡的极限-6
CPU核心	≥8核	8-16核	用于数据预处理
系统内存	64GB	64GB	存储原始FP16模型和数据集

优化要点：结合梯度检查点可进一步降低显存占用约30%-3

场景3：全量微调（混合精度）

资源类型	计算公式	需求估算	说明
GPU显存	参数(64GB) + 梯度(64GB) + 优化器(384GB) + 激活值(~32GB)	~544GB	AdamW优化器，Batch Size=4-2
GPU数量	544GB ÷ 80GB ≈ 7张	8×A100 80GB	需3D并行（DP+TP+PP）-5
CPU核心	≥32核	32-64核	推荐双路Xeon Platinum
系统内存	≥1.5×GPU显存	≥1TB DDR4 ECC	支持大规模数据集

部署案例：某银行部署32B模型用于反欺诈检测，采用4×A100 80GB集群，准确率达99.2%-10

三、70B模型资源需求示例（以Llama 2-70B / DeepSeek-70B为例）

场景1：纯GPU推理（FP16精度）

资源类型	计算公式	需求估算	说明
GPU显存	参数(140GB) + KV Cache(~6GB) + 激活值(~14GB) + 其他(2GB)	~162GB	Batch Size=1，序列长度2048-2 -8
GPU数量	2×A100 80GB（张量并行）或 4×RTX 4090 24GB	多卡并行必备	单卡无法承载FP16版本-6
CPU核心	≥16核	16-32核	用于数据加载和并行调度
系统内存	128-256GB	128GB	存储模型权重和中间数据

实测数据：2×A100 80GB集群推理延迟约1.2s，吞吐量8 tokens/s-5

场景2：QLoRA微调（4-bit量化）

资源类型	计算公式	需求估算	说明
GPU显存	4-bit参数(35GB) + LoRA参数(~0.7GB) + 优化器(~2.8GB) + 激活值(~7GB)	~45-50GB	4-bit量化后显存需求大幅降低-6
GPU数量	1×A6000 48GB 或 1×L40S 48GB	单卡专业级GPU	消费级显卡无法满足-6
CPU核心	16-32核	16核	支持数据预处理
系统内存	128GB	128GB	存储量化前模型和数据集

成本效益：QLoRA方案使70B微调门槛从数百GB降至50GB以内，TCO降低70%以上-6

场景3：全量微调（混合精度）

资源类型	计算公式	需求估算	说明
GPU显存	参数(140GB) + 梯度(140GB) + 优化器(840GB) + 激活值(~70GB)	~1.19TB	混合精度训练-2 -8
GPU数量	1190GB ÷ 80GB ≈ 15张	16×A100 80GB 或 8×H100 80GB	需3D并行+ZeRO-3-5
CPU核心	32-64核	≥64核	推荐双路EPYC或Xeon Platinum
系统内存	≥ 2×GPU显存	≥2TB DDR4 ECC	支持大规模数据加载-8
网络架构	100Gbps RDMA	Infiniband或RoCE	多卡通信带宽需求高

能耗成本：单次推理电耗超过500W，适合科研机构或超大规模企业-10

四、快速选型参考表

模型规模	场景	GPU显存需求	GPU数量建议	CPU核心	系统内存	适用场景
7B	推理	16-18GB	1×RTX 4090	4-8核	16-32GB	个人部署、轻量应用-1 -5
	LoRA微调	16-24GB	1×RTX 4090	8核	32-64GB	中小团队微调-2 -9
	全量微调	~93GB	2×A100 40GB	16-32核	128GB	研究机构-2
32B	推理	64-75GB	1×A100 80GB	8-16核	64-128GB	企业级应用-5 -10
	QLoRA微调	20-24GB	1×RTX 4090	8-16核	64GB	消费级极限-2 -6
	全量微调	~544GB	8×A100 80GB	32-64核	≥1TB	专业领域训练-5
70B	推理	140-162GB	2×A100 80GB	16-32核	128-256GB	云端服务-6 -8
	QLoRA微调	45-50GB	1×A6000 48GB	16-32核	128GB	专业微调-6
	全量微调	~1.2TB	16×A100 80GB	≥64核	≥2TB	科研/超大规模企业

总结与建议

1. 综合资源使用建议：

追求极致性能：聚焦GPU显存，确保能装下模型。
突破显存瓶颈：关注系统内存和CPU多核性能，它们是异构计算的关键。
追求极致成本：关注CPU指令集和内存容量，通过量化技术在纯CPU环境运行。

2. 显存估算核心公式：

推理：参数量(GB) × 1.2 ≈ 实际需求（含KV缓存和激活值）
全量训练：参数量(GB) × 16-18 ≈ 实际需求（含优化器状态）
LoRA微调：参数量(GB) × 2-3 + 10-15% ≈ 实际需求

3. CPU与内存配置原则：

训练场景：CPU核心数 ≥ GPU数量 × 4，系统内存 ≥ GPU显存总量
推理场景：CPU核心数 ≥ GPU数量 × 2，系统内存 ≥ 模型权重大小 × 1.2

4. CPU与GPU配比原则：

CPU的有效算力（数据处理+调度能力）≥ GPU的算力需求（数据吞吐量），同时控制成本，实现“性价比最优”。

大模型训练（如GB300场景）：CPU与GPU配比 1:2 ~ 1:4，优先选择高带宽、多核CPU（如Grace CPU），重点保障数据传输和调度效率；
AI推理（如自动驾驶、语音识别）：CPU与GPU配比 1:4 ~ 1:8，推理场景数据预处理压力小，可适当减少CPU数量，降低成本；
高清渲染、视频编解码：CPU与GPU配比 1:1 ~ 1:2，这类场景需要CPU承担较多的逻辑处理和任务调度，CPU性能不能太弱；
普通算力场景（如小型AI项目）：CPU与GPU配比 1:1 ~ 1:4，根据算力需求灵活调整，优先保证性价比。

参考：

[/zkqw]

大模型GPU显存算力需求计算

安志合的学习博客

anzhihe

2026年3月3日 23:00

一、显存占用核心组成部分

大语言模型在GPU上运行时的显存占用主要包括以下几个部分：

1. 模型参数

在模型推理时首先需要存储模型本身的参数，其占用的显存计算公式为：参数量 x 参数精度。常用的参数精度有FP32（4字节）、FP16（2字节）、BF16 （2字节）。对于大语言模型，模型参数通常采用FP16或BF16。因此，以参数精度为FP16，参数量为7B的模型为例，其所需显存为：7B × 2B = 14 GB

每个参数根据精度占用不同字节数：

FP32（单精度浮点数）：4字节/参数
FP16（半精度浮点数）/BF16：2字节/参数
INT8（8位整数）：1字节/参数
INT4（4位整数）：0.5字节/参数

2. 梯度

通常与参数精度相同
训练时需要，推理时不需要

3. 优化器状态

Adam优化器需要保存动量和方差
通常每个参数占用8-12字节（根据优化器类型）

4. 激活值

在大语言模型推理过程中，需要计算每层神经元的激活值，其占用显存与批量大小、序列长度和模型架构（层数、隐藏层大小）正相关，关系式可以表示为：激活值显存∝b×s×h×L×param_bytes

其中：

b（batch size）：单次请求批量大小，在作为在线服务时通常为1，作为批处理接口时不为1。
s（sequence length）：整个序列长度，包括输入输出（token数量）。
h（hidden size）：模型隐藏层维度。
L（Layers）：模型Transformer层数。
param_bytes：激活值存储的精度，一般为2字节。

结合以上因素和实践经验，为简化显存估算，且留有一定余量，以一个7B模型为例，b为1，s为2048，param_bytes为2字节时，激活值所占显存可以大致按照10%的模型所占显存进行估算，即：14GB×0.1=1.4GB。

5. KV Cache（推理时）

为加速大语言模型的推理效率，通常会缓存每层Transformer已经计算完成的键K（Key）和值V（Value），避免每个时间步重新计算所有历史token的注意力机制参数。引入KV缓存后，其计算量从降低至，大幅提升推理速度。与激活值类似，KV缓存占用显存也与批量大小、序列长度、并发度和模型架构（层数、隐藏层大小）正相关，关系式可以表示为：

其中：

2：表示需要存储K（Key）和V（Value）两个矩阵。
b（batch size）：单次请求批量大小，在作为在线服务时通常为1，作为批处理接口时不为1。
s（sequence length）：整个序列长度，包括输入输出（token数量）。
h（hidden size）：模型隐藏层维度。
L（Layers）：模型Transformer层数。
C（Concurrent）：服务接口请求的并发度。
param_bytes：激活值存储的精度，一般为2字节。

结合以上因素和实践经验，为简化显存估算，且留有一定余量，以一个7B模型为例，当C为1，b为1，s为2048，param_bytes为2字节时，KV缓存所占显存也大致按照10%的模型所占显存进行估算，即：。

6. 其他

除了以上影响因素外，当前批次的输入数据、CUDA核心、PyTorch/TensorFlow深度学习框架本身等也会占用一些显存，通常为1～2GB。

根据以上因素分析，对于7B的大模型，通常情况下模型推理部署最低需要的显存约为：

二、资源需求核心计算公式

1. 推理场景显存公式

总显存 ≈ 模型参数 + KV Cache + 激活值 + 其他开销(1-2GB)

模型参数 = 参数量 × 精度字节数
KV Cache = 2 × Batch Size × 序列长度 × 层数 × 隐层维度 × 精度字节数
激活值 ≈ 参数显存的10-20%（简化估算）

2. 训练场景显存公式

总显存 ≈ 模型参数 + 梯度 + 优化器状态 + 激活值 + 其他开销

模型参数 = 参数量 × 2字节（FP16）
梯度 = 参数量 × 2字节（FP16）
优化器状态（AdamW）= 参数量 × 12字节（FP32参数副本+动量+方差）
激活值 = 与Batch Size、序列长度正相关，通常占参数显存的20-50%

3. CPU与内存需求原则

CPU核心数：训练场景建议为GPU数量的2-4倍，推理场景可适当降低
系统内存：训练时建议≥ GPU显存总量，推理时需容纳完整模型权重（特别是CPU卸载场景）

三、实际计算示例

示例1：推理场景 - 加载Llama 2 7B模型 (FP16)

模型信息：

参数量：7B = 7 × 10⁹
精度：FP16 (2字节/参数)
假设batch size = 1，序列长度 = 2048
层数 = 32，注意力头数 = 32，隐层维度 = 4096

计算步骤：

1.模型参数显存：

7B × 2字节 = 14GB

2.KV Cache显存：

每层KV Cache大小 = 2(Key和Value) × 序列长度 × 隐层维度 × 2字节
= 2 × 2048 × 4096 × 2 = 33.55MB

总KV Cache = 33.55MB × 32层 ≈ 1.07GB

中间激活值（估算）≈ 0.5GB

总显存需求：

14GB + 1.07GB + 0.5GB = 15.57GB
加上10%预留 ≈ 17.13GB

结论：至少需要24GB显存的GPU（如RTX 3090/4090）

示例2：训练场景 - 微调Llama 2 7B (混合精度训练)

模型信息：

参数量：7B
使用混合精度训练（参数存FP16，优化器状态FP32）
batch size = 4，序列长度 = 512

计算步骤：

模型参数（FP16）：7B × 2 = 14GB
梯度（FP16）：7B × 2 = 14GB
优化器状态（Adam）：

FP32参数副本：7B × 4 = 28GB
动量：7B × 4 = 28GB
方差：7B × 4 = 28GB
小计：84GB

激活值（估算）：

与batch size、序列长度相关
粗略估算 ≈ 参数量的20-30% ≈ 2GB

总显存：

14GB + 14GB + 84GB + 2GB = 114GB
加上10%预留 ≈ 125.4GB

结论：需要多卡训练，如4×A100 (80GB)或8×A100

示例3：常见模型的推理显存需求

模型	参数量	精度	理论参数显存	实际推理显存
BERT-base	110M	FP16	220MB	约1-2GB
BERT-large	340M	FP16	680MB	约2-3GB
GPT-2 1.5B	1.5B	FP16	3GB	约6-8GB
Llama 2 7B	7B	FP16	14GB	约16-20GB
Llama 2 13B	13B	FP16	26GB	约28-32GB
Llama 2 70B	70B	FP16	140GB	约150-160GB
GPT-3 175B	175B	FP16	350GB	约380-400GB

四、降低显存占用的技巧

1. 量化技术

INT8量化：显存减少50%
INT4量化：显存减少75%
示例：Llama 2 7B INT8版本 ≈ 7GB

2. 参数高效微调

LoRA：只训练少量参数
显存需求可降低60-70%

3. 梯度检查点

用计算换显存
可减少30-50%激活值显存

4. 分布式策略

模型并行
张量并行
流水线并行

五、实用工具推荐

1.LLM 推理: 显存与性能计算器

https://apxml.com/zh/tools/vram-calculator

2.Hugging Face 显存计算器

https://huggingface.co/spaces/hf-accelerate/model-memory-usage

3.大模型训练计算器

https://lx.ainanjing.org.cn/calculator

4.LLM显存占用计算器

https://watermelonwater.tech/llm

5.简易显存估算器

https://help.aliyun.com/zh/pai/getting-started/estimation-of-the-required-video-memory-for-the-model

六、快速估算口诀

推理：参数量(GB) × 1.2 ≈ 实际需求
全参数训练：参数量(GB) × 8-12 ≈ 实际需求
LoRA微调：参数量(GB) × 4-6 ≈ 实际需求

例如：7B模型FP16 = 14GB

推理：14 × 1.2 ≈ 16.8GB
全参数训练：14 × 10 ≈ 140GB
LoRA微调：14 × 5 ≈ 70GB

参考：

CUDA Shared Memory Bank Conflict-Free Vectorized Access

Lei Mao's Log Book

Lei Mao

2026年2月13日 16:00

Instruction-Level Phase Based Bank Conflict-Free Execution

nvidia-smi工具详解及使用示例

安志合的学习博客

anzhihe

2026年2月11日 17:00

nvidia-smi（NVIDIA System Management Interface）是NVIDIA官方提供的GPU管理工具，提供管理和监控 GPU 的接口。其核心功能包括NVIDIA GPU运行状况、工作负载、硬件状态诊断和资源调度管理。

核心功能

功能模块	具体能力	适用场景
实时监控	显存占用、温度、功耗、时钟频率	深度学习训练过程监控
进程管理	查看/终止占用GPU的进程	资源泄漏应急处理
计算模式控制	切换默认/专属计算模式	多任务并发调度
ECC错误检测	读取内存错误计数器	硬件可靠性验证
性能状态调节	动态调整GPU功耗墙（P0-P12）	能效比优化

nvidia-smi输出字段解析

执行 nvidia-smi 命令后，会看到类似下面的表格。

+-----------------------------------------------------------------------------------------+
| NVIDIA-SMI 580.95.05              Driver Version: 580.95.05      CUDA Version: 13.0     |
|-----------------------------------------+------------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id          Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |           Memory-Usage | GPU-Util  Compute M. |
|                                         |                        |               MIG M. |
|=========================================+========================+======================|
|   0  NVIDIA B200                    On  |   00000000:51:00.0 Off |                    0 |
| N/A   27C    P0            136W / 1000W |       0MiB / 183359MiB |      0%      Default |
|                                         |                        |             Disabled |
+-----------------------------------------+------------------------+----------------------+
|   1  NVIDIA B200                    On  |   00000000:52:00.0 Off |                    0 |
| N/A   25C    P0            140W / 1000W |       0MiB / 183359MiB |      0%      Default |
|                                         |                        |             Disabled |
+-----------------------------------------+------------------------+----------------------+
|   2  NVIDIA B200                    On  |   00000000:62:00.0 Off |                    0 |
| N/A   27C    P0            138W / 1000W |       0MiB / 183359MiB |      0%      Default |
|                                         |                        |             Disabled |
+-----------------------------------------+------------------------+----------------------+
|   3  NVIDIA B200                    On  |   00000000:63:00.0 Off |                    0 |
| N/A   26C    P0            138W / 1000W |       0MiB / 183359MiB |      0%      Default |
|                                         |                        |             Disabled |
+-----------------------------------------+------------------------+----------------------+
|   4  NVIDIA B200                    On  |   00000000:75:00.0 Off |                    0 |
| N/A   27C    P0            139W / 1000W |       0MiB / 183359MiB |      0%      Default |
|                                         |                        |             Disabled |
+-----------------------------------------+------------------------+----------------------+
|   5  NVIDIA B200                    On  |   00000000:76:00.0 Off |                    0 |
| N/A   25C    P0            140W / 1000W |       0MiB / 183359MiB |      0%      Default |
|                                         |                        |             Disabled |
+-----------------------------------------+------------------------+----------------------+
|   6  NVIDIA B200                    On  |   00000000:86:00.0 Off |                    0 |
| N/A   27C    P0            142W / 1000W |       0MiB / 183359MiB |      0%      Default |
|                                         |                        |             Disabled |
+-----------------------------------------+------------------------+----------------------+
|   7  NVIDIA B200                    On  |   00000000:87:00.0 Off |                    0 |
| N/A   26C    P0            138W / 1000W |       0MiB / 183359MiB |      0%      Default |
|                                         |                        |             Disabled |
+-----------------------------------------+------------------------+----------------------+

+-----------------------------------------------------------------------------------------+
| Processes:                                                                              |
|  GPU   GI   CI        PID   Type   Process name                              GPU Memory |
|        ID   ID                                                               Usage      |
+=========================================================================================+
|    0   N/A  N/A   3085666      C   /home/anzhihe/chegva/.venv/bin/python       97757MiB |
|    1   N/A  N/A   1742545      C   /home/anzhihe/chegva/.venv/bin/python3      97122MiB |
|    2   N/A  N/A   3151439      C   /home/anzhihe/chegva/.venv/bin/python3.12   12850MiB |
|    2   N/A  N/A   3151917      C   /home/anzhihe/chegva/.venv/bin/python       95683MiB |
+-----------------------------------------------------------------------------------------+

nvidia-smi 的默认输出非常经典，可以看作由两个主要部分构成：上方的 GPU状态总览表格和下方的 Processes（进程信息）表格。

上方的 GPU状态总览表格，总结了每个物理GPU的核心实时指标，是快速监控的关键。

下方的 Processes（进程信息）表格，显示了正在使用GPU资源的各个进程的详细信息，在多用户环境或排查显存占用时极为有用。

各字段详细含义如下：

字段类别	字段名称	含义与解读
标题与版本	NVIDIA-SMI	NVIDIA系统管理接口工具本身。
	Driver Version	已安装的NVIDIA驱动程序版本。运行CUDA程序需确保其与CUDA Toolkit版本兼容。
	CUDA Version	此驱动程序支持的最高CUDA运行时版本。
GPU设备信息	GPU	GPU的索引编号，从0开始。在多卡系统中用于指定设备。
	Name	GPU的具体型号（如RTX 4090, Tesla T4）。
	Persistence-M	持久化模式。`On`表示启用，GPU在无负载时也保持上电状态，可减少后续任务启动延迟，但会消耗更多待机功耗。`Off`表示关闭。
	Bus-Id	PCI总线标识符，格式为`域:总线:设备.功能`，用于硬件定位。
运行状态	Fan	风扇转速，通常以百分比显示。部分服务器GPU可能显示为`N/A`。
	Temp	GPU核心温度，单位摄氏度。理想范围是低于85°C。长期超过此温度可能因热保护导致性能下降（降频）。
	Perf	性能状态，从`P0`（最高）到`P12`（最低）。`P0`表示正在以最大性能运行。
	Pwr:Usage/Cap	功耗：`Usage`为实时功耗，`Cap`为GPU设定的功耗上限（TDP），单位瓦特（W）。
显存与计算	Memory-Usage	显存使用量，格式为`已使用量 / 总量`。监视此值有助于避免因显存不足（OOM）导致程序崩溃。
	GPU-Util	GPU计算核心利用率，以百分比表示。高负载任务（如模型训练）下通常较高。持续过低（如<30%）可能表示存在CPU或数据I/O瓶颈。
	Compute M.	计算模式。`Default`允许多个进程共享GPU；`Exclusive_Process`表示独占模式，同一时间仅允许一个进程使用。
进程信息	GPU	该进程正在使用的GPU索引。如果进程使用了多张卡，这里会列出多张卡的ID。
	GI ID	GPU Instance ID(GPU实例ID)，这是MIG功能在物理GPU上划分出的“GPU实例”的编号。可以将其理解为一台物理服务器中的第一层虚拟化分区。
	CI ID	Compute Instance ID(计算实例ID)，这是在一个GPU实例内部，进一步划分出的“计算实例”的编号。它是第二层虚拟化分区，直接用于运行具体的计算任务。
	PID	进程的系统ID。这是唯一标识，可用于后续的监控或终止操作 (`kill`命令)。
	Type	进程类型。最常见的是 `C` (Compute，计算进程，如CUDA程序) 和 `G` (Graphics，图形进程)。AI任务通常是 `C`。
	Process name	进程的名称。例如 `python`、`torch` 等，能快速定位是哪个程序。
	GPU Memory Usage	该进程当前占用的GPU显存量。注意：此值不等于整个GPU的总显存使用量（"Memory-Usage"），后者是所有进程占用之和。

请注意：不同厂家和版本的工具，其命令和输出字段名称可能不同。例如，华为的相应工具为 npu-smi，阿里的相应工具为 ppu-smi，英特尔数据中心GPU的工具则为 xpu-smi。

MIG解释及GI、CI、PID之间关系

MIG 是 Multi-Instance GPU 的缩写，是NVIDIA在Ampere架构及之后的数据中心GPU（如A100, H100）上引入的一项关键功能。它允许将一块物理GPU安全地分割成多个独立的、具备各自显存和计算核心的“小GPU”（即GPU实例），并分配给不同的用户或作业，从而实现硬件级的资源隔离、安全隔离和更精细的资源利用。

GI、CI、PID这三个字段标识了进程在 MIG虚拟化架构中的精确位置，其层级关系为：
物理GPU → GI (GPU实例) → CI (计算实例) → 进程 (PID)

当一个物理GPU 未启用MIG 或进程不在MIG实例中运行时，GI 和 CI 字段通常会显示为 N/A 或 -，这是正常现象。只有在使用了支持MIG的GPU（如A100）并启用了该功能后，才会在进程信息中看到具体的GI和CI编号

常用命令与实战技巧

除了基础的 nvidia-smi，以下命令能更好地监控和管理GPU：

实时监控：

使用 nvidia-smi -l 2 可以每2秒自动刷新一次状态。
使用 watch -n 1 nvidia-smi 可以实现更灵活的实时监控。

查询详细信息：

使用 nvidia-smi -q 会显示全部详细信息，内容非常全面。
可以配合 -d 参数指定查询类别，如 nvidia-smi -q -d TEMPERATURE,POWER 只查看温度和功耗详情。
使用 -i 参数指定GPU索引，如 nvidia-smi -i 0 -q 只查询0号GPU的详细信息。

进程管理：

使用 nvidia-smi -q -d PROCESSES 可以查看占用GPU的具体进程、PID及其显存使用量。

进阶管理功能

nvidia-smi 还支持一些直接影响GPU运行状态的操作（通常需要管理员权限）：

计算模式切换：sudo nvidia-smi -i <gpu_id> -c <mode> 可以切换GPU的计算模式。例如，-c 3 设置为独占进程模式。
设置持久化模式：sudo nvidia-smi -pm 1 可以启用持久化模式，可能减少应用启动延迟。
设置功耗上限：sudo nvidia-smi -pl <功率值（瓦）> 可以为GPU设置新的功耗上限。

典型问题排查思路

当遇到性能问题时，可以按以下步骤排查：

GPU利用率低

现象：GPU-Util 持续低于30%。
可能原因：CPU数据预处理成为瓶颈；批处理大小（Batch Size）设置过小；程序存在同步等待。
排查：检查CPU使用率；使用 nvidia-smi -q -d PROCESSES 确认GPU上是否有任务运行。

显存不足

现象：程序报错“CUDA out of memory”。
可能原因：模型或批处理大小过大；存在显存泄漏（显存占用只增不减）。
排查：使用 nvidia-smi 观察 Memory-Usage；尝试减小批处理大小；检查代码确保显存及时释放。

GPU温度过高

现象：Temp 持续超过85°C 。
可能原因：散热风扇故障或积灰；机箱风道不畅；负载持续满载。
排查：清洁散热器；改善机箱通风；确保风扇正常运转。

总结

核心监控指标：重点关注 GPU-Util（利用率）、Memory-Usage（显存）、Temp（温度）和 Power（功耗），它们是判断GPU工作状态和性能瓶颈的关键。
常用命令：基础状态用 nvidia-smi，详细查询用 nvidia-smi -q，实时监控用 nvidia-smi -l 2 或 watch 命令。
更多帮助：在终端输入 nvidia-smi -h 可查看完整的命令帮助。

参考：

CUDA Rendezvous Stream

Lei Mao's Log Book

Lei Mao

2026年1月26日 16:00

Simplifying Synchronization Complexities Using CUDA Rendezvous Streams

当 Go 遇上 GPU：用 CUDA 释放千倍算力的实战指南

Tony Bai

bigwhite

2026年1月21日 07:31

本文永久链接 – https://tonybai.com/2026/01/21/integrating-cuda-in-go

大家好，我是Tony Bai。

长期以来，高性能计算（HPC）和 GPU 编程似乎是 C++ 开发者的专属领地。Go 语言虽然在并发和服务端开发上表现卓越，但在触及 GPU 算力时，往往显得力不从心。

然而，在最近的 GopherCon 2025 上，软件架构师 Sam Burns 打破了这一刻板印象。他展示了如何通过 Go 和 CUDA 的结合，让 Gopher 也能轻松驾驭 GPU 的海量核心，实现惊人的并行计算能力。

本文将带你深入这场演讲的核心，从 GPU 的独特架构到内存模型，再通过一个完整的、可运行的矩阵乘法示例，手把手教你如何用 Go 驱动 NVIDIA 显卡释放澎湃算力。

img{512x368}

为什么 Go 开发者需要关注 GPU？

在摩尔定律逐渐失效的今天，CPU 的单核性能提升已遇瓶颈。虽然 CPU 拥有极低的延迟、卓越的分支预测能力和巨大的缓存，但它的核心数量（通常在几十个量级）限制了其处理大规模并行任务的能力。

相比之下，GPU (Graphics Processing Unit) 走的是另一条路。它拥有成千上万个核心。虽然单个 GPU 核心的频率较低，且缺乏复杂的逻辑控制能力，但它们能同时处理海量简单的计算任务。这使得 GPU 成为以下场景的绝佳选择：

图形处理与视频转码
AI 模型推理与训练（神经网络本质上就是大规模矩阵运算）
物理模拟与科学计算（如流体力学、分子动力学）
密码学与哈希碰撞

通过 Go 语言集成 CUDA，我们可以在享受 Go 语言高效开发体验（构建 API、微服务、调度逻辑）的同时，将最繁重的“脏活累活”卸载给 GPU，实现 CPU 负责逻辑，GPU 负责算力 的完美分工。

GPU架构与CUDA编程模型速览——理解 GPU 的“兵团”

在编写代码之前，我们需要理解 GPU 的独特架构。Sam Burns 用一个形象的比喻描述了 GPU 的线程模型。如果说 CPU 是几位精通各种技能的“专家”，那么 GPU 就是一支纪律严明、规模庞大的“兵团”。

而指挥这支兵团的指令集，我们称之为 “内核” (Kernel)。

0. 什么是 Kernel？

此 Kernel 非彼 Kernel（操作系统内核）。在 CUDA 语境下，Kernel 是一个运行在 GPU 上的函数。

当我们“启动”一个 Kernel 时，GPU 并不是简单地调用这个函数一次，而是同时启动成千上万个线程，每个线程都在独立执行这份相同的代码逻辑。每个线程通过读取自己独一无二的 ID（threadIdx），来决定自己该处理数据的哪一部分（比如图像的哪个像素，或矩阵的哪一行）。

1. 线程模型：从 Thread 到 Grid

理解了 Kernel，我们再看它是如何被调度执行的。CUDA 编程模型将计算任务分解为三个层级：

线程 (Thread)：GPU 工作的最小单位。它类似于 CPU 的线程，但极其轻量。每个线程都有自己的 ID，负责处理数据的一小部分（例如图像中的一个像素，或矩阵中的一个元素）。
块 (Block)：一组线程的集合。一个 Block 内的线程运行在同一个流式多处理器 (SM) 上。关键点在于：同一个 Block 内的线程可以通过极快的“共享内存”进行协作和同步（__syncthreads()）。
网格 (Grid)：所有执行同一个内核函数（Kernel）的 Block 的集合。Grid 涵盖了整个计算任务。

2. 内存模型：速度与容量的权衡

GPU 的内存架构比 CPU 更为复杂，理解它对于性能优化至关重要：

寄存器 (Registers)：最快。每个线程私有，用于存储局部变量。数量有限，用多了会溢出到慢速内存。
共享内存 (Shared Memory)：极快（L1 缓存级别）。属于 Block 私有，是线程间通信的桥梁。优化 CUDA 程序的核心往往在于如何高效利用共享内存来减少全局内存访问。
全局内存 (Global Memory)：较慢（显存，如 24GB GDDR6X）。所有线程可见，容量大但延迟高。
常量内存 (Constant Memory)：快（有缓存）。用于存储只读参数，适合广播给所有线程。

编写高效 CUDA 代码的秘诀，就是尽可能让数据停留在寄存器和共享内存中，减少对全局内存的访问。

Go + CUDA 实战——跨越鸿沟

理解了原理，现在让我们动手。我们将构建一个完整的 Go 项目，利用 GPU 并行计算两个矩阵的乘积。这个过程需要借助 CGO 作为桥梁。

1. 项目目录结构

go-cuda-cgo-demo/
├── main.go       # Go 主程序 (CGO 入口，负责内存分配和调度)
├── matrix.cu     # CUDA 内核代码 (在 GPU 上运行的 C++ 代码)
└── matrix.h      # C 头文件 (声明导出函数，供 CGO 识别)

2. 编写 CUDA 内核 (matrix.cu)

这是在 GPU 上运行的核心代码。我们定义一个 matrixMulKernel，每个线程利用自己的坐标 (x, y) 计算结果矩阵中的一个元素。

// matrix.cu
#include <cuda_runtime.h>
#include <stdio.h>

// CUDA Kernel: 每个线程计算 C[row][col] 的值
__global__ void matrixMulKernel(float *a, float *b, float *c, int width) {
    // 根据 Block ID 和 Thread ID 计算当前线程的全局坐标
    int row = blockIdx.y * blockDim.y + threadIdx.y;
    int col = blockIdx.x * blockDim.x + threadIdx.x;

    if (row < width && col < width) {
        float sum = 0;
        // 计算点积
        for (int k = 0; k < width; k++) {
            sum += a[row * width + k] * b[k * width + col];
        }
        c[row * width + col] = sum;
    }
}

extern "C" {
    // 供 Go 调用的 C 包装函数
    // 负责显存分配、数据拷贝和内核启动
    void runMatrixMul(float *h_a, float *h_b, float *h_c, int width) {
        int size = width * width * sizeof(float);
        float *d_a, *d_b, *d_c;

        // 1. 分配 GPU 显存 (Device Memory)
        cudaMalloc((void **)&d_a, size);
        cudaMalloc((void **)&d_b, size);
        cudaMalloc((void **)&d_c, size);

        // 2. 将数据从 Host (CPU内存) 复制到 Device (GPU显存)
        // 这一步通常是性能瓶颈，应尽量减少
        cudaMemcpy(d_a, h_a, size, cudaMemcpyHostToDevice);
        cudaMemcpy(d_b, h_b, size, cudaMemcpyHostToDevice);

        // 3. 定义 Grid 和 Block 维度
        // 每个 Block 包含 16x16 = 256 个线程
        dim3 threadsPerBlock(16, 16);
        // Grid 包含足够多的 Block 以覆盖整个矩阵
        dim3 numBlocks((width + threadsPerBlock.x - 1) / threadsPerBlock.x,
                       (width + threadsPerBlock.y - 1) / threadsPerBlock.y);

        // 4. 启动内核！成千上万个线程开始并行计算
        matrixMulKernel<<<numBlocks, threadsPerBlock>>>(d_a, d_b, d_c, width);

        // 5. 将计算结果从 Device 传回 Host
        cudaMemcpy(h_c, d_c, size, cudaMemcpyDeviceToHost);

        // 6. 释放 GPU 内存
        cudaFree(d_a);
        cudaFree(d_b);
        cudaFree(d_c);
    }
}

3. 定义 C 头文件 (matrix.h)

// matrix.h
#ifndef MATRIX_H
#define MATRIX_H

void runMatrixMul(float *a, float *b, float *c, int width);

#endif

4. 编写 Go 主程序 (main.go)

在 Go 代码中，我们准备数据，并通过 CGO 调用 runMatrixMul。

// go-cuda-cgo-demo/main.go
package main

/*
#cgo LDFLAGS: -L. -lmatrix -L/usr/local/cuda/lib64 -lcudart
#include "matrix.h"
*/
import "C"
import (
    "fmt"
    "math/rand"
    "time"
    "unsafe"
)

const width = 1024 // 矩阵大小 1024x1024，共 100万次计算

func main() {
    size := width * width
    h_a := make([]float32, size)
    h_b := make([]float32, size)
    h_c := make([]float32, size)

    // 初始化矩阵数据
    rand.Seed(time.Now().UnixNano())
    for i := 0; i < size; i++ {
        h_a[i] = rand.Float32()
        h_b[i] = rand.Float32()
    }

    fmt.Printf("Starting Matrix Multiplication (%dx%d) on GPU...\n", width, width)
    start := time.Now()

    // 调用 CUDA 函数
    // 使用 unsafe.Pointer 获取切片的底层数组指针，传递给 C
    C.runMatrixMul(
        (*C.float)(unsafe.Pointer(&h_a[0])),
        (*C.float)(unsafe.Pointer(&h_b[0])),
        (*C.float)(unsafe.Pointer(&h_c[0])),
        C.int(width),
    )

    // 注意：在更复杂的场景中，需要使用 runtime.KeepAlive(h_a)
    // 来确保 Go GC 不会在 CGO 调用期间回收切片内存。

    elapsed := time.Since(start)
    fmt.Printf("Done. Time elapsed: %v\n", elapsed)

    // 简单验证：检查左上角元素
    fmt.Printf("Result[0][0] = %f\n", h_c[0])
}

5. 编译与运行

前提：确保你的机器安装了 NVIDIA Driver 和 CUDA Toolkit。nvcc是CUDA编译器工具链，可以将基于CUDA的代码翻译为GPU机器码。

步骤一：编译 CUDA 代码

nvcc -c matrix.cu -o matrix.o
ar rcs libmatrix.a matrix.o

步骤二：编译 Go 程序

# 链接本地的 libmatrix.a 和系统的 CUDA 运行时库
go build -o gpu-cgo-demo main.go

步骤三：运行

./gpu-cgo-demo

预期输出：

Starting Matrix Multiplication (1024x1024) on GPU...
Done. Time elapsed: 611.815451ms
Result[0][0] = 262.440918

性能优化——从能用到极致

代码跑通只是第一步。Sam 推荐使用 NVIDIA 的 Nsight Systems (nsys) 来进行性能分析。你会发现，虽然 GPU 计算极快，但PCIe 总线的数据传输往往是最大的瓶颈。

优化黄金法则：

减少传输：PCIe 很慢。尽量一次性将所有数据传给 GPU，让其进行多次计算，最后再取回结果。
利用共享内存 (Shared Memory)：Block 内的共享内存比全局显存快得多。在矩阵乘法中，可以利用它实现分块算法 (Tiling)，将小块矩阵加载到共享内存中复用，从而大幅减少显存带宽压力。

小结：Gopher 的新武器

Go + CUDA 的组合，为 Go 语言打开了一扇通往高性能计算的大门。它证明了 Go 不仅是编写微服务的利器，同样可以成为驾驭底层硬件、构建计算密集型应用的强大工具。如果你正在处理大规模数据，不妨尝试将计算任务卸载给 GPU，你会发现，那个熟悉的蓝色 Gopher，也能拥有令人惊叹的爆发力。

资料链接：

https://www.youtube.com/watch?v=d1R8BS-ccNk
https://sam-burns.com/posts/gophercon-25-go-faster/#gophercon-2025-new-york

本文涉及的示例源码可以在这里下载。

附录：告别 CGO？尝试 PureGo 的无缝集成

虽然 CGO 是连接 Go 和 C/C++ 的标准桥梁，但它也带来了编译速度变慢、工具链依赖等问题。有没有一种更“纯粹”的 Go 方式？

答案是有的。借助 PureGo 库，我们可以在不开启 CGO 的情况下，直接加载动态链接库 (.so / .dll) 并调用其中的符号。

让我们看看如何用 PureGo 重写上面的 main.go。

1. 准备动态库

首先，我们需要将 CUDA 代码编译为共享对象 (.so)，而不是静态库。

# 编译为共享库 libmatrix.so
nvcc -shared -Xcompiler -fPIC matrix.cu -o libmatrix.so

2. 编写 PureGo 版主程序 (go-cuda-purego-demo/main.go)

// go-cuda-purego-demo/main.go
package main

import (
    "fmt"
    "math/rand"
    "runtime"
    "time"

    "github.com/ebitengine/purego"
)

const width = 1024

func main() {
    // 1. 加载动态库
    // 注意：在运行时，libmatrix.so 和 libcuder.so 必须在 LD_LIBRARY_PATH 中
    libMatrix, err := purego.Dlopen("libmatrix.so", purego.RTLD_NOW|purego.RTLD_GLOBAL)
    if err != nil {
        panic(err)
    }

    // 还需要加载 CUDA 运行时库，因为 libmatrix 依赖它
    _, err = purego.Dlopen("/usr/local/cuda/lib64/libcudart.so", purego.RTLD_NOW|purego.RTLD_GLOBAL)
    if err != nil {
        panic(err)
    }

    // 2. 注册 C 函数符号
    var runMatrixMul func(a, b, c *float32, w int)
    purego.RegisterLibFunc(&runMatrixMul, libMatrix, "runMatrixMul")

    // 3. 准备数据 (与 CGO 版本相同)
    size := width * width
    h_a := make([]float32, size)
    h_b := make([]float32, size)
    h_c := make([]float32, size)

    rand.Seed(time.Now().UnixNano())
    for i := 0; i < size; i++ {
        h_a[i] = rand.Float32()
        h_b[i] = rand.Float32()
    }

    fmt.Println("Starting Matrix Multiplication via PureGo...")
    start := time.Now()

    // 4. 直接调用！无需 CGO 类型转换
    runMatrixMul(&h_a[0], &h_b[0], &h_c[0], width)

    // 5. 极其重要：保持内存存活
    // PureGo 调用是纯汇编实现，Go GC 无法感知堆栈上的指针引用
    // 必须显式保活，否则在计算期间 h_a 等可能被 GC 回收！
    runtime.KeepAlive(h_a)
    runtime.KeepAlive(h_b)
    runtime.KeepAlive(h_c)

    fmt.Printf("Done. Time: %v\n", time.Since(start))
    fmt.Printf("Result[0][0] = %f\n", h_c[0])
}

3. 运行

# 无需 CGO，直接在go-cuda-purego-demo下运行
# 确保当前目录在 LD_LIBRARY_PATH 中
export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:.
CGO_ENABLED=0 go run main.go
Starting Matrix Multiplication via PureGo...
Done. Time: 584.397195ms
Result[0][0] = 260.088806

优势：

编译飞快：没有 CGO 的编译开销。
零外部依赖：编译环境不需要安装 GCC 或 CUDA Toolkit，只要运行时环境有 .so 即可。这对于在轻量级 CI/CD 环境中构建分发包非常有用。

注意：PureGo 方案虽然优雅，但也失去了 CGO 的部分类型安全检查，且需要开发者更小心地管理内存生命周期 (runtime.KeepAlive)。

你的“算力”狂想

Go + GPU 的组合，打破了我们对 Go 应用场景的想象边界。在你的业务场景中，有没有哪些计算密集型的任务（比如图像处理、复杂推荐算法、密码学计算）是目前 CPU 跑不动的？你是否会考虑用这种“混合动力”方案来重构它？

欢迎在评论区分享你的脑洞或实战计划！ 让我们一起探索 Go 的算力极限。

如果这篇文章为你打开了高性能计算的大门，别忘了点个【赞】和【在看】，并转发给那个天天喊着“CPU 跑满了”的同事！

还在为“复制粘贴喂AI”而烦恼？我的新专栏 《AI原生开发工作流实战》 将带你：

告别低效，重塑开发范式
驾驭AI Agent(Claude Code)，实现工作流自动化
从“AI使用者”进化为规范驱动开发的“工作流指挥家”

扫描下方二维码，开启你的AI原生开发之旅。

你的Go技能，是否也卡在了“熟练”到“精通”的瓶颈期？

想写出更地道、更健壮的Go代码，却总在细节上踩坑？
渴望提升软件设计能力，驾驭复杂Go项目却缺乏章法？
想打造生产级的Go服务，却在工程化实践中屡屡受挫？

继《Go语言第一课》后，我的《Go语言进阶课》终于在极客时间与大家见面了！

我的全新极客时间专栏《Tony Bai·Go语言进阶课》就是为这样的你量身打造！30+讲硬核内容，带你夯实语法认知，提升设计思维，锻造工程实践能力，更有实战项目串讲。

目标只有一个：助你完成从“Go熟练工”到“Go专家”的蜕变！现在就加入，让你的Go技能再上一个新台阶！

商务合作方式：撰稿、出书、培训、在线课程、合伙创业、咨询、广告合作。如有需求，请扫描下方公众号二维码，与我私信联系。

vLLM 部署Qwen2.5 LLM & VLM 大模型

安志合的学习博客

anzhihe

2026年1月5日 21:16

Qwen2.5-32B 和 Qwen2.5-VL-32B 是通义千问（Qwen）系列中的两个大模型，分别对应纯语言模型（LLM）和多模态视觉-语言模型（VLM）。Docker环境安装与配置 NVIDIA Container Toolk，下载大模型参考 Docker部署bge-m3/bge-reranker模型。

模型简介

模型名称	类型	参数量	特点
Qwen2.5-32B	纯文本语言模型	~32B	支持中英文，推理、代码、对话能力强
Qwen2.5-VL-32B	视觉-语言多模态模型	~32B（含视觉编码器）	支持图像理解、图文问答、多模态推理

注意：Qwen2.5-VL 基于 Qwen2.5 语言主干 + 视觉编码器（如 SigLIP 或 CLIP 变体），需同时加载视觉和语言组件。

部署前的硬件准备

部署前，需确认硬件环境满足基本要求。由于Qwen2.5-VL-32B是多模态模型，其显存需求通常高于纯文本模型。

资源	Qwen2.5-32B (纯文本)	Qwen2.5-VL-32B (多模态)	说明
GPU显存	建议 ≥ 24GB (单卡)	建议 ≥ 32GB (单卡或多卡)	使用量化版本（如GPTQ-Int4）可大幅降低显存需求。
系统内存	建议 32GB+	建议 64GB+	避免模型加载时内存溢出（OOM）。
磁盘空间	模型文件约需 60GB+	模型文件约需 70GB+	需预留额外空间存放Docker镜像和依赖。

OpenLLM - Qwen

model    version                repo     required GPU RAM    platforms
-------  ---------------------  -------  ------------------  -----------
qwen2.5  qwen2.5:0.5b           default  12G                 linux
         qwen2.5:1.5b           default  12G                 linux
         qwen2.5:3b             default  12G                 linux
         qwen2.5:7b             default  24G                 linux
         qwen2.5:14b            default  80G                 linux
         qwen2.5:14b-ggml-q4    default                      macos
         qwen2.5:14b-ggml-q8    default                      macos
         qwen2.5:32b            default  80G                 linux
         qwen2.5:32b-ggml-fp16  default                      macos
         qwen2.5:72b            default  80Gx2               linux
         qwen2.5:72b-ggml-q4    default                      macos

硬件要求

Qwen2.5-32B（纯文本）：

推荐：2×A100 80GB（FP16）或 4×A10 24GB（INT4 量化）
最低：单卡 A100 80GB（INT4）

Qwen2.5-VL-32B（多模态）：

推荐：2×A100 80GB（FP16）或 4×A10 24GB（INT4）
需额外加载视觉编码器（如 ViT），显存需求略高

基于vLLM的Docker部署通用流程

下面以 vLLM框架为例，介绍在Docker中部署这两个模型的通用步骤。vLLM是一个高效的推理和服务框架。

步骤一：准备环境与下载模型

1.安装依赖：确保系统已安装Docker、NVIDIA驱动和NVIDIA Container Toolkit（使Docker支持GPU）。

2.下载模型：推荐使用国内镜像源（如ModelScope）下载模型到本地目录。

# 示例：通过ModelScope下载Qwen2.5-32B-Instruct
pip install modelscope
modelscope download --model Qwen/Qwen2.5-32B-Instruct --local_dir /your/local/model/path

3.拉取Docker镜像：拉取官方vLLM镜像。

docker pull vllm/vllm-openai:latest

步骤二：启动Docker容器并运行模型

使用以下命令启动容器。请务必将命令中的 /your/local/model/path 和 Qwen2.5-32B-Instruct 替换为你实际部署的模型路径和名称（例如，部署VL模型时需替换为Qwen2.5-VL-32B-Instruct）。

docker run -d \
  --gpus all \
  -p 8000:8000 \
  -v /your/local/model/path:/model \  # 将宿主机模型目录挂载到容器
  --name vllm-qwen \
  vllm/vllm-openai:latest \
  --model /model \  # 容器内的模型路径
  --served-model-name Qwen2.5-32B \  # 服务名称，可按需修改
  --tensor-parallel-size 1 \  # 使用的GPU数量，单卡设为1
  --gpu-memory-utilization 0.9 \  # GPU内存利用率，可调整以防OOM
  --max-model-len 8192 \  # 最大序列长度，可根据需要调整
  --trust-remote-code  # Qwen模型需要此参数

部署 Qwen2.5-VL-32B-Instruct

docker run -d \
  --gpus all \  # 允许容器使用所有GPU
  -p 8000:8000 \  # 映射端口（主机端口:容器端口）
  -v /your/local/model/path:/model \  # 挂载模型目录到容器内
  --name vllm-qwen-vl \  # 容器名称
  vllm/vllm-openai:latest \  # 使用的镜像
  --model /model \  # 容器内模型路径 外部调用时入参model 需要与此处相同 注意此处有 /
  --served-model-name Qwen2.5-VL-32B \  # 服务名称，可按需修改
  --port 8000 \  # 容器内服务端口
  --host 0.0.0.0 \  # 允许外部访问
  --tensor-parallel-size 1 \  # 若单卡则设1，多卡按实际数量调整
  --gpu-memory-utilization 0.9 \  # 允许使用90%的GPU内存（避免OOM）
  --trust-remote-code  # 信任远程模型代码（Qwen模型需要）

关键参数说明：

--tensor-parallel-size：根据你使用的GPU数量设置。例如，单卡设为1，双卡可设为2。
--gpu-memory-utilization：控制显存使用率。如果启动时出现内存不足（OOM）错误，可以尝试降低此值（如调整为0.8）。
--max-model-len：根据模型支持的上下文长度和你的需求调整。
--dtype float16：模型运行的数据类型：float16 是半精度浮点类型，相比 float32 可减少 GPU 内存占用（约节省一半），同时保持较好的推理精度。Qwen2.5 模型支持 float16，推荐使用（若 GPU 支持 bfloat16，也可改为 bfloat16）。

测试与验证部署

服务启动后，可以通过以下方式验证模型是否正常工作：

1.检查服务状态：

curl http://localhost:8000/health

如果返回 {"status":"OK"} 或类似信息，说明服务已就绪。

2.发送推理请求进行测试：

Qwen2.5-32B (文本)：直接向其 /v1/completions 或 /v1/chat/completions 端点发送文本Prompt。

1. 测试聊天接口（推荐）

curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "Qwen2.5-32B",
    "messages": [
      {"role": "user", "content": "你好，请介绍一下你自己。"}
    ],
    "max_tokens": 100,
    "temperature": 0.7
  }'

2. 测试流式输出（streaming）

curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "Qwen2.5-32B",
    "messages": [{"role": "user", "content": "写一首关于春天的诗。"}],
    "stream": true,
    "max_tokens": 150
  }'

Qwen2.5-VL-32B (多模态)：需要构建一个包含图像和文本的多模态请求。可以参考官方GitHub仓库中的示例代码。

自定义 FastAPI + Transformers

1. Dockerfile（多模态）

# Dockerfile（多模态）
FROM nvcr.io/nvidia/pytorch:24.06-py3

RUN pip install --upgrade pip && \
    pip install "transformers>=4.40" "accelerate" "torch" "torchvision" \
    "pillow" "fastapi" "uvicorn" "einops" "timm" "qwen-vl-utils" \
    -i https://pypi.tuna.tsinghua.edu.cn/simple

COPY app_vl.py /app/app.py
WORKDIR /app
EXPOSE 8000
CMD ["uvicorn", "app:app", "--host", "0.0.0.0", "--port", "8000"]

2.app_vl.py（简化版）

from fastapi import FastAPI, HTTPException
from pydantic import BaseModel
from PIL import Image
import base64
import io
from transformers import AutoModelForVision2Seq, AutoTokenizer

app = FastAPI()

# 加载模型（启动时加载）
model = AutoModelForVision2Seq.from_pretrained(
    "Qwen/Qwen2.5-VL-32B",
    device_map="auto",
    trust_remote_code=True,
    torch_dtype="auto"
)
processor = AutoTokenizer.from_pretrained("Qwen/Qwen2.5-VL-32B", trust_remote_code=True)

class VLRequest(BaseModel):
    image_b64: str  # Base64 编码的图片
    question: str

@app.post("/vl")
async def vision_language(request: VLRequest):
    try:
        # 解码图片
        image_data = base64.b64decode(request.image_b64)
        image = Image.open(io.BytesIO(image_data)).convert("RGB")

        # 构造消息
        messages = [{
            "role": "user",
            "content": [
                {"type": "image", "image": image},
                {"type": "text", "text": request.question}
            ]
        }]

        # 预处理
        inputs = processor(messages, return_tensors="pt", padding=True)
        inputs = {k: v.to(model.device) for k, v in inputs.items()}

        # 生成
        output = model.generate(**inputs, max_new_tokens=256)
        response = processor.decode(output[0], skip_special_tokens=True)

        return {"response": response}
    except Exception as e:
        raise HTTPException(status_code=500, detail=str(e))

3. 构建并运行

docker build -t qwen25-vl-32b -f Dockerfile.vl .
docker run -d --gpus all -p 8001:8000 qwen25-vl-32b

4.curl 测试（需 Base64 图片）

# 先将图片转为 base64
base64_image=$(base64 -i cat.jpg | tr -d '\n')

curl http://localhost:8001/vl \
  -H "Content-Type: application/json" \
  -d "{
    \"image_b64\": \"$base64_image\",
    \"question\": \"图片中有什么动物？\"
  }"

参考：

多个模型复用同一张GPU卡方案

安志合的学习博客

anzhihe

2025年12月26日 05:31

上一篇我们使用 Docker部署bge-m3/bge-reranker模型，由于测试环境GPU卡资源紧张，基于成本考虑，需要在同一张卡上运行多个模型。现在以 bge-m3/bge-reranker 模型为例，将两个模型部署在同一张英伟达 L20 GPU卡上。

🎯 同时运行的方案

方案1：使用不同端口分别部署（推荐）

这是最直接和稳定的方式：

# 启动 embedding 模型（使用端口 8080）
docker run -d --name bge-embedding --runtime nvidia --gpus '"device=0"' \
  -v /path/to/embedding-model:/mnt/models \
  -p 8080:8080 --ipc=host \
  --entrypoint=text-embeddings-router \
  ghcr.io/huggingface/text-embeddings-inference:1.6 \
  --model-id /mnt/models --port 8080 \
  --max-batch-tokens 16384 --max-concurrent-requests 256 \
  --max-client-batch-size 16

# 启动 rerank 模型（使用端口 8081）
docker run -d --name bge-reranker --runtime nvidia --gpus '"device=0"' \
  -v /path/to/reranker-model:/mnt/models \
  -p 8081:8080 --ipc=host \
  --entrypoint=text-embeddings-router \
  ghcr.io/huggingface/text-embeddings-inference:1.6 \
  --model-id /mnt/models --port 8080 \
  --max-batch-tokens 8192 --max-concurrent-requests 128 \
  --max-client-batch-size 8

方案2：使用不同GPU内存限制

如果担心资源竞争，可以为每个容器设置GPU内存限制：

# 为embedding模型分配较多显存
docker run -d --name bge-embedding --runtime nvidia --gpus '"device=0"' \
  -e NVIDIA_VISIBLE_DEVICES=1 \
  -e NVIDIA_DRIVER_CAPABILITIES=compute,utility \
  --memory=8g --memory-swap=10g \
  -p 8080:8080 \
  # ... 其他参数

# 为reranker模型分配较少显存
docker run -d --name bge-reranker --runtime nvidia --gpus '"device=0"' \
  -e NVIDIA_VISIBLE_DEVICES=1 \
  -e NVIDIA_DRIVER_CAPABILITIES=compute,utility \
  --memory=4g --memory-swap=6g \
  -p 8081:8080 \
  # ... 其他参数

📊 资源规划建议

GPU显存需求估算

模型类型	基础模型大小	显存需求（近似）	批处理大小影响
Embedding模型	110M-335M	1-3GB	+0.5-1GB（批处理）
Reranker模型	110M-278M	1-2.5GB	+0.3-0.8GB（批处理）

NVIDIA L20有48GB显存，同时运行两个模型绰绰有余。

性能优化配置

# Embedding模型（通常需要更高吞吐量）
--max-concurrent-requests 256
--max-client-batch-size 16
--max-batch-tokens 16384

# Reranker模型（通常延迟更敏感）
--max-concurrent-requests 128  
--max-client-batch-size 8
--max-batch-tokens 8192

🔧 验证同时运行状态

1. 检查容器状态

docker ps | grep -E "(bge-embedding|bge-reranker)"

2. 监控GPU使用情况

# 实时监控GPU使用
watch -n 1 nvidia-smi

# 或使用更详细的监控
nvidia-smi --query-gpu=index,name,utilization.gpu,utilization.memory,memory.used,memory.total --format=csv -l 2

3. 分别测试两个服务

# 测试embedding服务
curl -X POST http://localhost:8080/embed \
  -H "Content-Type: application/json" \
  -d '{"inputs": "测试文本"}'

# 测试rerank服务  
curl -X POST http://localhost:8081/rerank \
  -H "Content-Type: application/json" \
  -d '{
    "query": "测试查询",
    "texts": ["文档1", "文档2"]
  }'

⚠️ 注意事项

显存竞争：虽然可以同时运行，但在高并发时可能会有显存竞争
性能隔离：一个模型的负载高峰可能影响另一个模型的响应时间
故障隔离：一个容器崩溃不会影响另一个容器
资源监控：建议设置监控告警，及时发现资源瓶颈

🚀 生产环境建议

对于生产环境，推荐：

使用Kubernetes进行资源管理和弹性伸缩
设置资源限制确保公平性
实现健康检查和自动恢复
使用负载均衡在多个实例间分发请求

总结：在L20 GPU上同时运行embedding和reranker模型是完全可行的，只需合理分配端口和调整资源参数即可，对于多个模型利用同一张GPU卡，生产环境还是慎用。

参考：

NVIDIA NVML GPU Statistics

Lei Mao's Log Book

Lei Mao

2025年12月25日 16:00

Mimicking nvidia-smi dmon Using NVIDIA NVML

Docker部署bge-m3/bge-reranker模型

安志合的学习博客

anzhihe

2025年12月22日 23:34

安装与配置 NVIDIA Container Toolkit

确认前置条件
在开始之前，请确保系统已经安装了NVIDIA GPU驱动程序（NVIDIA 驱动≥535.86.10，支持 CUDA 12.2+），并且可以正常运行 nvidia-smi 命令。同时，Docker Engine（版本建议 Docker 24.0+）也需要被安装好。
安装 NVIDIA Container Toolkit
具体的安装命令会根据操作系统有所不同。以下是一些常见系统的安装方法，可以参考 NVIDIA Docker 安装指南：

对于Ubuntu或Debian系统：

curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey | sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg \
  && curl -s -L https://nvidia.github.io/libnvidia-container/stable/deb/nvidia-container-toolkit.list | sed 's#deb https://#deb [signed-by=/usr/share/keyrings/nvidia-container-toolkit-keyring.gpg] https://#g' | sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list
apt-get update
apt-get install -y nvidia-container-toolkit

对于CentOS或RHEL系统：

curl -s -L https://nvidia.github.io/libnvidia-container/stable/rpm/nvidia-container-toolkit.repo | sudo tee /etc/yum.repos.d/nvidia-container-toolkit.repoyum clean expire-cacheyum install -y nvidia-container-toolkit

配置 Docker 运行时
安装完成后，需要配置Docker守护进程，使其默认使用NVIDIA Container Runtime。

nvidia-container-runtime --version
nvidia-ctk runtime configure --runtime=docker
systemctl restart docker

# 查看Docker Runtime配置
cat /etc/docker/daemon.json
{
    "default-runtime": "nvidia",
    "runtimes": {
        "nvidia": {
            "runtimeArgs": [],
            "path": "/usr/bin/nvidia-container-runtime"
        }
    },
    "insecure-registries": [
	  "xxx:5000"
    ]
}

验证 Docker GPU 支持

配置完成后，必须验证GPU是否真的可以在Docker容器中使用了。

运行测试容器：
使用一个标准的CUDA镜像启动一个容器，并执行 nvidia-smi 命令。如果容器内能正常显示出GPU信息，就说明配置成功了。

docker run --rm --gpus all nvidia/cuda:12.0-base nvidia-smi

这个命令会启动一个临时容器，并执行 nvidia-smi。如果配置正确，将看到与在宿主机上直接运行 nvidia-smi 类似的GPU状态信息。

部署bge-m3/bge-reranker模型

bge-m3/bge-reranker模型，TEI框架介绍参考常用AI模型介绍及多模型组合使用场景。

下载模型（推荐提前下载，避免容器内耗时）

通过 ModelScope 下载（推荐）

# 安装ModelScope工具
pip install modelscope

# 创建模型存储目录
mkdir -p /data/models

# 下载模型（国内源，速度快）
modelscope download --model BAAI/bge-m3 --local_dir /data/models/bge-m3
modelscope download --model BAAI/bge-reranker-v2-m3 --local-dir /data/models/bge-reranker-v2-m3

通过 Hugging Face 国内镜像下载（备用）

# 安装huggingface-cli
pip install huggingface-hub

# 设置国内镜像（hf-mirror）
export HF_ENDPOINT=https://hf-mirror.com

# 下载模型
huggingface-cli download --resume-download BAAI/bge-m3 --local-dir /data/models/bge-m3
huggingface-cli download --resume-download BAAI/bge-reranker-v2-m3 --local-dir /data/models/bge-reranker-v2-m3

text-embeddings-inference 国内镜像下载地址

模型部署

两个模型的核心部署命令对比：

特性	BGE-M3 嵌入模型	BGE-Reranker-V2-M3 重排序模型
核心功能	将文本转换为向量	对(query, document)对进行相关性打分
模型ID	`BAAI/bge-m3`	`BAAI/bge-reranker-v2-m3`
常用端口	`8080`	`8081`
验证方式	调用 `/embed` 端点	调用 `/rerank` 端点

NVIDIA GPU卡对应的text-embeddings-inference镜像：

Architecture    Image
CPU ghcr.io/huggingface/text-embeddings-inference:cpu-1.6
Volta   NOT SUPPORTED
Turing (T4, RTX 2000 series, …) ghcr.io/huggingface/text-embeddings-inference:turing-1.6 (experimental)
Ampere 80 (A100, A30)   ghcr.io/huggingface/text-embeddings-inference:1.6
Ampere 86 (A10, A40, A4000, …)  ghcr.io/huggingface/text-embeddings-inference:86-1.6
Ada Lovelace (RTX 4000 series, …)   ghcr.io/huggingface/text-embeddings-inference:89-1.6
Hopper (H20, H100)  ghcr.io/huggingface/text-embeddings-inference:hopper-1.6 (experimental)

1.部署 BGE-M3 嵌入模型
此命令会拉取本地镜像、加载本地模型并启动服务，使用NVIDIA L20卡部署。

docker run -d \
  --name bge-m3 \
  --runtime nvidia \
  --gpus '"device=0"' \
  --ipc=host \
  -v /data/models/bge-m3:/mnt/models\
  -p 8080:8080 \
  --entrypoint=text-embeddings-router \
  ghcr.io/huggingface/text-embeddings-inference:1.6 \
  --model-id /mnt/models \
  --port 8080 \
  --max-batch-tokens 16384 \
  --max-concurrent-requests 512 \
  --max-client-batch-size 32

参数详细解释：

参数组	参数	解释说明
Docker基础配置	`docker run -d`	启动一个新容器并在后台 (`-d`，即 `detached` 模式) 运行。
	`--name bge-m3`	为容器指定一个名称 (`bge-m3`)，便于后续通过名称进行管理（如查看日志、停止容器）。
	`-p 8080:8080`	端口映射，格式为 `宿主机端口:容器内端口`。此处将宿主机`8080`端口映射到容器内应用的`8080`端口，以便通过 `http://主机IP:8080` 访问服务。
	`-v /data/models/bge-m3:/mnt/models`	数据卷挂载，将宿主机目录 `/data/models/bge-m3` 挂载到容器内的 `/mnt/models` 路径。容器内的应用可直接读取此处的模型文件。
GPU与运行时配置	`--runtime nvidia`	指定使用 NVIDIA 容器运行时，这是容器能够访问宿主GPU驱动的基础（需提前安装`nvidia-container-toolkit`）。
	`--gpus '"device=0"'`	精确指定容器可使用的GPU设备。`"device=0"` 表示仅使用系统中的第一块GPU（索引为0）。引号的嵌套是语法要求。
	`--ipc=host`	让容器使用宿主机的进程间通信（IPC）命名空间。对于需要大量共享内存的GPU应用（如大模型推理），此配置能显著提升性能并避免内存问题。
镜像与入口点	`--entrypoint=text-embeddings-router`	覆盖Docker镜像默认的启动命令，直接指定容器启动时运行 `text-embeddings-router` 这个程序。
镜像与入口点	`ghcr.io/huggingface/text-embeddings-inference:1.6`	指定要拉取和运行的Docker镜像地址及标签。这里是Hugging Face官方提供的文本嵌入推理服务，版本为 `1.6`。
模型推理服务参数	`--model-id /mnt/models`	指定模型加载的路径。这里的 `/mnt/models` 对应上面 `-v` 参数挂载的目录，容器会从此路径读取模型文件。
	`--port 8080`	指定容器内的推理服务监听在 `8080` 端口。此端口必须与 `-p` 参数中映射的容器侧端口一致。
	`--max-batch-tokens 16384`	限制单个批处理中所有文本的token总数上限。是控制显存消耗和批处理效率的核心参数。
	`--max-concurrent-requests 512`	设置服务的最大并发请求数。用于控制服务负载，超过此数量的新请求需要排队等待。
	`--max-client-batch-size 32`	限制单个客户端请求中最多能包含的文本数量（即批大小）。与`max-batch-tokens`共同作用。

2.部署 BGE-Reranker-V2-M3 重排序模型

docker run -d \
  --name bge-reranker \
  --runtime nvidia \
  --gpus '"device=1"' \
  --ipc=host \
  -v /data/models/bge-reranker-v2-m3:/mnt/models\
  -p 8081:8080 \
  --entrypoint=text-embeddings-router \
  ghcr.io/huggingface/text-embeddings-inference:1.6 \
  --model-id /mnt/models \
  --port 8080 \
  --max-batch-tokens 16384 \
  --max-concurrent-requests 512 \
  --max-client-batch-size 32

执行 nvidia-smi 命令查看模型运行进程：

服务验证与问题排查

部署后，请按顺序验证服务状态。

1.检查容器状态

docker ps | grep -E "bge-m3|bge-reranker"

确认两个容器的状态（STATUS）均为 Up。

2.查看容器日志

# 查看BGE-M3日志
docker logs bge-m3 --tail 50

# 查看BGE-Reranker日志
docker logs bge-reranker --tail 50

关注日志末尾，确认出现类似 "Server started on 0.0.0.0:8080" 、"Ready"的成功信息，并且没有显存的报错。

3.发送测试请求

测试 BGE-M3 (嵌入)：成功会返回一个浮点数向量。

curl -X POST "http://localhost:8080/embed" \
  -H "Content-Type: application/json" \
  -d '{"inputs": "Hello, world!"}'

# 预期结果：
[[-0.015909059,0.026837891,...,-0.03666923,0.0015528625]]

测试 BGE-Reranker (重排序)：

text-embeddings-inference 服务的 /rerank 端点通常期望一个包含query和texts列表的JSON。成功会返回一个相关性分数列表。

curl -X POST "http://localhost:8081/rerank" \
      -H 'Content-Type: application/json' \
    -d '{"query":"What is Deep Learning?", "texts": ["Deep Learning is not...", "Deep learning is..."], "raw_scores": false}'

# 预期结果：
[{"index":1,"score":0.9976404},{"index":0,"score":0.12527926}]

问题排查

1.CUDA计算能力兼容性错误

docker run 启动模型容器报错：ERROR text_embeddings_backend: backends/src/lib.rs:388: Could not start Candle backend: Could not start backend: Runtime compute cap 89 is not compatible with compile time compute cap 90

这是问题原因是CUDA计算能力（90）与目前部署的GPU的实际计算能力（89）不匹配。确认使用的GPU具体型号和计算能力：

nvidia-smi --query-gpu=name,compute_cap --format=csv

常见计算能力对应表：详见 CUDA GPU 计算能力

计算能力	GPU架构	典型GPU型号
9.0	Hopper	NVIDIA H20，H100，H200
8.9	Ada Lovelace	RTX 40系列
8.6	Ampere	A100, A30, RTX 30系列
7.5	Turing	RTX 20系列, T4
6.1	Pascal	P100, GTX 10系列

解决方案：替换适配NVIDIA L20卡的镜像，Nvidia L20使用 ghcr.io/huggingface/text-embeddings-inference:1.6 镜像，H20使用 text-embeddings-inference:hopper-1.6 镜像

参考：

英伟达算力GPU主要型号及参数

安志合的学习博客

anzhihe

2025年12月13日 05:47

1. A100：数据中心AI计算的奠基石

A100是英伟达2020年发布的旗舰级数据中心GPU，基于Ampere架构，主要特性包括：

架构：Ampere
CUDA核心数：6912
Tensor核心：432
显存：40GB/80GB HBM2e
带宽：1.6TB/s
NVLink支持：可连接多个GPU以扩展算力
应用场景：深度学习训练、推理、科学计算、大规模数据分析

A100可广泛应用于高性能计算（HPC）和深度学习任务，适用于需要大量计算资源的企业级用户。

2. H100：性能提升的算力王者

H100是A100的升级版，采用更先进的Hopper架构，相比A100提升了数倍的计算性能，主要特性包括：

架构：Hopper
CUDA核心数：16896
Tensor核心：528
显存：80GB HBM3（带宽高达3.35TB/s）
NVLink支持：支持高带宽互联
Transformer Engine：专门优化AI大模型训练，如GPT-4
应用场景：大规模AI训练、HPC、企业级AI推理

H100特别适用于大型AI模型训练，比如Llama、GPT、Stable Diffusion等，可以大幅提升训练效率。

3. A800 & H800：中国市场专供版

A800和H800是英伟达专为中国市场推出的受限版GPU，以符合美国的出口管制要求：

A800：基于A100，限制了NVLink互联带宽，适合AI推理和训练
H800：基于H100，限制了带宽，但仍然保留了较高的计算能力，适用于大型AI训练

这些GPU主要面向中国客户，如阿里云、腾讯云、百度云等云计算厂商，性能稍逊于A100和H100，但仍然具备极高的计算能力。

4. H20：新一代受限算力GPU

H20是英伟达为中国市场设计的新一代受限版H100，预计将取代H800：

架构：Hopper
显存：未知（预计64GB+）
带宽：受限
计算性能：介于A800和H800之间

H20仍然具备强大的算力，适用于AI训练和推理，但具体性能指标需等待正式发布后确认。

二、如何搭建自己的算力中心？

如果你想搭建自己的算力中心，无论是用于AI训练，还是进行高性能计算，都需要从以下几个方面考虑：

1. 确定算力需求

首先需要明确你的算力需求：

AI训练：大规模深度学习训练（如GPT、Transformer）推荐H100或H800
AI推理：推荐A100、A800，推理对带宽要求较低
科学计算 & HPC：H100最优，A100次之
中小规模计算：可以考虑A800、H800或H20

2. 选择GPU服务器

你可以选择以下方式搭建你的GPU算力中心：

单机GPU服务器：

适合中小企业或个人开发者
选择如 DGX Station A100/H100，单机最多4-8张GPU

GPU集群：

适合企业级部署
可使用 DGX A100/H100 服务器，支持多台GPU互联
通过InfiniBand和NVLink构建大规模集群

3. 搭配高性能计算环境

CPU：推荐使用AMD EPYC 或 Intel Xeon 服务器级CPU
内存：建议最低256GB，AI训练需要大量内存
存储：SSD + 高速NVMe存储（如1PB级别）
网络：支持InfiniBand和100GbE以上高速网络

4. 软件环境搭建

操作系统：Ubuntu 20.04 / 22.04 LTS，或基于Linux的服务器环境
驱动与CUDA：安装最新的NVIDIA驱动，CUDA 11+（H100支持CUDA 12）
AI框架：

PyTorch / TensorFlow
NVIDIA Triton 推理服务器
cuDNN / TensorRT

如果对数据隐私和持续算力需求较高，建议选择本地搭建GPU集群。

三、训练场景 vs 推理场景

在AI训练（Training）和AI推理（Inference）场景下，不同GPU的性能表现存在明显差异。主要区别体现在计算精度、带宽需求、显存优化以及核心架构等方面。以下是详细对比：

训练 vs. 推理：性能对比

训练 vs. 推理：性能解析

1. 计算精度（数值格式）

在AI计算中，不同的数值格式影响计算速度和精度：

训练需要高精度计算（如 FP32、TF32、FP16）
推理需要低精度计算（如 INT8、FP16），以提升计算吞吐量

数值格式	适用场景	精度	计算速度	备注
FP32	AI训练	高	慢	经典浮点计算格式
TF32	AI训练	较高	快	H100支持，兼顾速度和精度
FP16	训练 & 推理	中	快	适合加速AI计算
INT8	AI推理	低	极快	适用于部署阶段，提高吞吐量

H100 特别优化了 Transformer Engine，在 FP8/FP16 下可大幅提升 AI 训练和推理性能，适用于 LLM（大语言模型）如 GPT-4。

2. 显存带宽

训练任务 通常需要处理大规模数据，因此高显存带宽至关重要：

H100（HBM3，3.35TB/s） → 训练速度比 A100 快 2-3 倍
A100（HBM2e，1.6TB/s） → 适合标准 AI 任务
H800/A800 由于带宽受限，训练效率比 H100 低

推理任务 一般不需要大带宽，因为：

数据已训练完成，只需加载模型进行计算
推理更关注 吞吐量（TPS） 和 延迟（Latency）

3. 并行计算 & 计算核心优化

AI训练 依赖 矩阵计算（Tensor Cores），需要强大的 FP16/TF32 计算能力
AI推理 需要高效的 INT8/FP16 计算，以提高吞吐量

在计算核心优化上：

GPU型号	训练核心优化	推理核心优化
A100	Tensor Core优化，FP16/TF32 训练	支持 INT8，推理较强
H100	Transformer Engine ，优化LLM训练	INT8/FP8 计算，极高推理吞吐量
A800	限制版 Tensor Core	适用于中等推理任务
H800	Hopper架构优化	适用于大规模推理
H20	受限 Hopper架构	适用于中等推理任务

H100 在 Transformer-based AI 任务（如 GPT）中比 A100 快 6 倍，而推理吞吐量也更高。

小结

AI训练： 需要高带宽 + 高精度计算，推荐 H100/A100 及其变种
AI推理： 需要低延迟 + 高吞吐量，推荐 H100/H800/H20
H100 在Transformer模型训练 和 推理吞吐量 方面遥遥领先
A100/A800 仍然是中等预算下的优秀选择

未来，随着 H20 逐步普及，它可能成为中国市场AI训练和推理的首选。

四、算力中心投资成本估算

根据GPU型号，搭建算力中心的成本会有所不同：

A100：单卡价格 ~$10,000
H100：单卡价格 ~$30,000
A800/H800：价格略低于A100/H100
H20：待定，但预计比H800便宜

一个基础的4张H100服务器可能需要20万-50万美元，而大型AI训练集群（如64张H100）则可能超过千万美元。

小结：如何选择合适的算力架构？

预算有限？ 选择 A100、A800、H800
追求顶级算力？ 选择 H100 或 H800
云端还是本地？ 云端适合短期任务，本地适合长期需求
数据隐私？ 关键业务建议本地部署

附：

以太网

交换机

转载自公众号：ittbank，原文链接：https://mp.weixin.qq.com/s/8Rdw6b3rMo_G46w6blAGbQ

参考：

Install NVIDIA RTX 5080

Lei Mao's Log Book

Lei Mao

2025年12月10日 16:00

Installing NVIDIA RTX 5080 on an Old Desktop

NVIDIA Tensor Core TN Layout MMA Instruction

Lei Mao's Log Book

Lei Mao

2025年12月6日 16:00

GEMM Layout, History, Performance, and Implementation

NVIDIA GPU架构演进及使用场景

安志合的学习博客

anzhihe

2025年12月1日 05:27

在人工智能和深度学习领域，NVIDIA 凭借其强大的 GPU 产品线占据着举足轻重的地位。NVIDIA 拥有数十款功能各异的 GPU 产品，可用于部署和运行不同规模的机器学习模型，从边缘设备到大规模数据中心，几乎涵盖了所有应用场景。然而，NVIDIA GPU 的命名规则较为复杂，涉及架构代号（如 Ampere、Hopper）、性能等级（如 A100、A40）以及其他技术特征等多重维度，这使得用户在选择时容易感到困惑，同时也是不小的挑战。因此，了解NVIDIA GPU架构演进，充分理解这些不同显卡的核心参数、性能特征、成本效益，在实际需求场景使用时才能做出最佳选择。

在了解 NVIDIA GPU架构之前，我们先来简单了解下 NVIDIA GPU 的核心参数，这样能够更好地帮助我们了解这些 GPU 的差别和各自的优势。

CUDA Core：CUDA Core 是 NVIDIA GPU 上的计算核心单元，用于执行通用的并行计算任务，是最常看到的核心类型。NVIDIA 通常用最小的运算单元表示自己的运算能力，CUDA Core 指的是一个执行基础运算的处理元件，我们所说的 CUDA Core 数量，通常对应的是 FP32 计算单元的数量。
Tensor Core：Tensor Core 是 NVIDIA Volta 架构及其后续架构（如 Ampere 架构）中引入的一种特殊计算单元。它们专门用于深度学习任务中的张量计算，如[矩阵乘法]和卷积运算。Tensor Core 核心特别大，通常与深度学习框架（如 TensorFlow 和 PyTorch）相结合使用，它可以把整个矩阵都载入寄存器中批量运算，实现十几倍的效率提升。
RT Core：RT Core 是 NVIDIA 的专用硬件单元，主要用于加速光线追踪计算。正常数据中心级的 GPU 核心是没有 RT Core 的，主要是消费级显卡才为光线追踪运算添加了 RTCores。RT Core 主要用于游戏开发、电影制作和虚拟现实等需要实时渲染的领域。

NVIDIA GPU 讲解

NVIDIA GPU 架构的演进

NVIDIA GPU架构的演进是一部典型的"需求驱动创新"的历史。它从专注于图形渲染出发，逐步演变为承载通用计算和人工智能计算的强大引擎。为了对这段演进史有一个直观的整体认知，首先我们用GPU产品发布时间线来概括其核心里程碑：

接下来，我们来详细解读每一个架构的代际创新，以及它们如何塑造了今天的计算格局。

详细架构演进解读

架构代号	首发年份	核心创新与驱动因素	代表性产品	历史意义与定位
Tesla	2008	统一着色器模型；CUDA计算平台诞生	GeForce 8000系列；Tesla C/C/D系列	通用计算的破冰者：将GPU从纯粹的图形处理器转变为潜在的并行计算 accelerator。
Fermi	2010	首个为GPU计算设计的架构；ECC显存；更完善的GPU计算生态	GeForce 400/500系列；Tesla M/C系列	计算架构的奠基者：建立了GPU计算的可靠性和实用性，真正吸引了科学计算领域的目光。
Kepler	2012	追求能效比；动态并行；GPU直接通信	GeForce 600/700系列；Tesla K系列（如K80）	云数据中心的先驱：其低功耗设计使大规模GPU服务器部署成为可能，开启了云GPU服务。
Maxwell	2014	极致能效优化；大幅提升每瓦特性能	GeForce GTX 900系列（如GTX 980 Ti）	消费级市场的优化大师：证明了在性能提升的同时，功耗可以得到出色控制。
Pascal	2016	拥抱AI浪潮；NVLink高速互联；16nm工艺；HBM2显存	Tesla P100；GeForce GTX 10系列	AI计算的铺路者：为深度学习的爆发提供了关键的高速互联和大容量显存支持。
Volta	2017	专用AI核心；Tensor Cores；NVSwitch	Tesla V100；TITAN V	AI时代的革命者：专用硬件（Tensor Core）的引入，使AI训练和推理性能提升了数个量级。
Turing	2018	AI+光追融合；RT Cores；Tensor Cores下放消费级	GeForce RTX 20系列；Quadro RTX系列	图形技术的再革命：将实时光线追踪和AI降噪（DLSS）带入消费级市场，重塑了图形保真度标准。
Ampere	2020	统一AI与HPC；第三代Tensor Core；稀疏化；MIG	RTX 30系列；A100；A40	数据中心的主力军：在AI训练/推理、HPC和图形领域提供了前所未有的综合性能，是目前应用最广泛的架构之一。
Hopper	2022	专为巨型模型打造；Transformer引擎；第四代NVLink	H100；H200	超大规模AI的引擎：针对万亿参数模型的训练和推理进行了专门优化，确立了新一代数据中心的标准。
Ada Lovelace	2022	极致图形体验；第三代RT Core；DLSS 3	GeForce RTX 40系列；RTX 5000/6000 Ada	图形技术的再突破：通过光流加速器和AI帧生成，在图形领域实现了质的飞跃。
Blackwell	2024	超大规模AI与HPC；第二代Transformer引擎；芯片间高速互联	B100/B200；GB200	下一代计算平台：旨在支撑万亿参数模型的实时推理和持续训练，目标是降低超大规模AI的总拥有成本。

NVIDIA 技术架构

演进的核心驱动力

从上述演进历程中，我们可以清晰地看到几条主线：

从通用到专用

早期的架构（Tesla到Kepler）主要优化通用并行计算。
从Pascal开始，特别是Volta引入Tensor Core后，NVIDIA开始集成针对特定领域（尤其是AI）的专用硬件，实现了性能的飞跃。后来的RT Core也是同一思路在图形领域的体现。

对带宽和互联的极致追求

从GDDR5到HBM2/HBM2e/HBM3，显存带宽不断提升，以喂饱越来越多的计算核心。
互联技术从PCIe到NVLink/NVSwitch，再到Blackwell的芯片间高速互联，都是为了解决多GPU系统内部的数据传输瓶颈，这对于大规模AI训练至关重要。

能效比的持续优化

每一代架构都在寻求在给定的功耗下提供更高的性能，这是GPU能够进入从移动设备到超大规模数据中心的每一个角落的关键。

软件与硬件的协同进化

CUDA的诞生是这一切的基础。随着硬件演进，NVIDIA不断丰富其软件栈（cuDNN, TensorRT等），构建了无与伦比的软件生态护城河，使开发者能充分利用硬件能力。

总结

NVIDIA GPU架构的演进史，是一部从图形处理器到并行计算 accelerator 再到 AI引擎的进化史。其成功关键在于，它敏锐地捕捉到了AI这一未来趋势，并通过前瞻性的架构设计（专用核心）和强大的软件生态，牢牢抓住了时代机遇，最终确立了在人工智能计算领域的绝对领导地位。

NVIDIA 主流GPU核心参数速览

下表汇总了T4、V100、A40、A100、A800、H100、H200、H800和B100的主要规格，可以依据架构、显存、关键特性和典型应用场景这些维度进行横向对比。

GPU 型号	架构	显存	显存带宽	关键特性	典型应用场景
T4	Turing	16 GB GDDR6	320+ GB/s	低功耗(70W)，支持INT4/INT8精度，视频编解码能力强	AI推理、视频处理、边缘计算
V100	Volta	16/32 GB HBM2	900-1134 GB/s	首批Tensor Core GPU，强大的FP64双精度计算能力	科学计算、传统AI训练、高性能计算仿真
A40	Ampere	48 GB GDDR6	696 GB/s	强大的专业图形能力（第二代RT Core），支持vGPU虚拟化	专业图形渲染（光线追踪）、虚拟工作站、VR/AR
A100	Ampere	40/80 GB HBM2e	1.6-2.0 TB/s	第三代Tensor Core，支持MIG（多实例GPU），稀疏性优化	数据中心级AI训练与推理、HPC、大规模数据分析
A800	Ampere	40 GB HBM2e	1.6 TB/s	A100的替代型号，互联带宽调整以符合特定贸易法规	与A100类似，适用于AI、数据科学和HPC工作负载
H100	Hopper	80-94 GB HBM3	3.35-3.9 TB/s	专用Transformer引擎，第四代Tensor Core，支持FP8精度	大规模AI训练与推理（尤其大语言模型）、高性能计算
H200	Hopper	141 GB HBM3e	4.8 TB/s	H100的升级版，显存容量与带宽显著提升	超大规模AI模型（特别是LLM推理和训练）
H800	Hopper	80 GB HBM3e	3.35 TB/s	H100的替代型号，互联带宽调整以符合特定贸易法规	与H100类似，适用于大规模AI训练与推理
B100	Blackwell	192 GB HBM3e (预计)	8 TB/s (预计)	新一代架构，集成Transformer引擎，AI算力大幅提升	下一代超大规模AI与高性能计算

英伟达GPU参数速查表，请注意：以上GPU部分详细规格和特性可能仍在更新中，建议在决策前访问NVIDIA官方网站获取最权威和最新的数据。

如何根据场景选择GPU？

面对众多选项，您可以从以下几个方面考虑，找到最适合您业务的GPU：

1. 明确主要工作负载
不同的任务需要不同类型的计算资源。

大规模AI训练与推理：尤其是千亿参数级别的大语言模型（LLMs），需要极高的AI算力和大显存。H100、H200和未来的B100是为此设计的标杆。对于参数规模稍小的模型，A100和A800是性能与成本平衡的可靠选择。
AI推理：对于高并发、低延时的在线推理场景，T4凭借其低功耗和对INT8/INT4精度的支持，是性价比极高的选择。
高性能计算（HPC）与科学模拟：许多科学计算应用（如气候模拟、分子动力学）依赖强大的双精度（FP64）性能。V100和A100在此领域表现出色。
专业图形与渲染：如果需要强大的实时图形处理能力，用于虚拟制片、建筑可视化或虚拟工作站（vGPU），那么具备强大RT Core（光追核心）的A40是更合适的选择。
成本与合规性考量：A800和H800是A100和H100的特定版本，在互联带宽上有所调整以符合国际贸易法规。如果您的项目受此限制，它们是直接的替代选项。

2. 评估性能与规模需求

数据中心级：对于需要部署多GPU节点的大规模任务，应考虑支持NVLink和NVSwitch（提升多GPU互联带宽）的型号，如A100、H100。
虚拟化与多租户：如果需要在多个虚拟机（VM）之间共享GPU资源，务必选择支持NVIDIA vGPU或MIG（多实例GPU）技术的GPU。例如，A100和H100支持MIG，可以将单卡物理分割为多个独立实例；A40则支持vGPU，适合虚拟工作站场景。

总结与建议

简单来说，这几款GPU可以这样快速定位：

H100/H200/B100：追求极致AI算力，专为超大规模模型打造。
A100/A800：需要均衡的数据中心级性能，是经久考验的全能与性价比之选。
T4：专注于高能效的AI推理和视频处理。
V100：用于科学模拟等传统HPC或预算有限的AI项目。
A40：主要面向专业图形设计、渲染和虚拟化。

参考：

英伟达GPU参数速查表

安志合的学习博客

anzhihe

2025年11月29日 23:29

**◎NVIDIA GPU参数速查表** | 更新日期：20251129
GPU型号	产品架构	产品形态	算力情况，挂*为稀疏值	显存	显存带宽	GPU互联	详细参数
GB300	Blackwell Ultra	多芯组合，2个B300和1个Grace CPU	FP4：30/38.9P* FP8：10/20P* FP16：5/10P* TF32：2.5/5P*	576G HBM3e	16TB/s	Nvlink 2x1.8TB/s	查看
B300	Blackwell Ultra	SXM	FP4：15/17.5P?* FP8：4.5/9P* FP16：2.25/4.5P* TF32：1.12/2.25P* FP64：40T	288G HBM3e	8TB/s	Nvlink 1.8TB/s	查看
GB200	Blackwell	多芯组合，2个B200和1个Grace CPU	FP4：20/40P* FP8：10/20P* FP16：5/10P* TF32：2.5/5P* FP64：90T	384G HBM3e	16TB/s	Nvlink 2x1.8TB/s	查看
B200	Blackwell	SXM	FP4：9/18P* FP8：4.5/9P* FP16：2.25/4.5P* TF32：1.12/2.25P* FP64：40T	192G HBM3e	8TB/s	Nvlink 1.8TB/s	查看
B100	Blackwell	SXM	FP16：1.8/3.5P* TF32：0.9/1.8P* FP64：30T	192G HBM3e	8TB/s	Nvlink 1.8TB/s	查看
H20标准款	Hopper	SXM	INT8和FP8：296T FP16：148T TF32：59.8T	96G HBM3	4TB/s	NVlink 900GB/s	查看
H20大显存	Hopper	SXM	INT8和FP8：296T FP16：148T TF32：59.8T	141G HBM3e	4.8TB/s	NVlink 900GB/s	查看
H200	Hopper	SXM	FP8和INT8：1/2P* FP16：1/2P* TF32：495/989T* FP64：67T	141G HBM3e	4.8TB/s	Nvlink 900GB/s	查看
RTX 4090	Ada	PCIe	FP16：165T/330T* TF32:82.6/165.2T* 源于AutoDL官网	24G GDDR6x 新增48G	1TB/s	64GB/s	查看
RTX 4090D	Ada	PCIe	FP16：147/294T* TF32：73.54/147T* 源于AutoDL官网	24G GDDR6x	1TB/s	64GB/s	查看
RTX 5090	Blackwell	PCIe 5.0	FP16：210T/420T？ TF32：108T 源自网络，供参考	32G GDDR7	1.8TB/s	PCIe 128GB/s	查看
RTX 5090D	Blackwell	PCIe 5.0	FP16：150/297T*？ TF32：未找到源自网络，供参考	32G GDDR7	1.8TB/s	PCIe 128GB/s	查看
H100	Hopper	SXM	FP8和INT8：1/2P* FP16：1/2P* TF32：495/989T* FP64：67T	80G HBM3	3.35TB/s	Nvlink 900GB/s	查看
H100	Hopper	PCIe	FP16：0.8/1.6P* TF32：378/756T* FP64：51T	80G HBM3	2TB/s	PCIe 128GB/s	查看
H800	Hopper	SXM	FP16：1/2P* TF32：495/989T* FP64：1T	80G HBM3	3.35TB/s	Nvlink 400GB/s	查看
H800	Hopper	PCIe	FP16：0.8/1.6P* TF32：378/756T* FP64：0.8T	80G HBM3	2TB/s	PCIe 128GB/s	查看
A100	Ampere	SXM	FP16：0.3/0.6P* TF32：156/312T* FP64：19.5T	80GHBM2e	2TB/s	Nvlink 600GB/s	查看
A100	Ampere	PCIe	FP16：0.3/0.6P* TF32：156/312T* FP64：19.5T	80GB HBM2e	2TB/s	PCIe 64GB/s	查看
A800	Ampere	SXM	FP16：0.3/0.6P* TF32：156/312T* FP64：19.5T	80GHBM2e	2TB/s	Nvlink 400GB/s	查看
A800	Ampere	PCIe	FP16：0.3/0.6P* TF32：156/312T* FP64：19.5T	80GB HBM2e	2TB/s	PCIe 64GB/s	查看
L40S	Ada	PCIe	FP16：366/733T* TF32：181/366*	48G GDDR6x	864GB/s	64GB/s	查看
L40	Ada	PCIe	FP16：181/362T* TF32：90.5/181*	48G GDDR6x	864GB/s	64GB/s	查看
L20	Ada	PCIe	FP16：119.5T TF32：59.8T	48G GDDR6x	864GB/s	64GB/s	查看
A40	Ampere	PCIe	FP16：149.7/299.4* TF32：74.8/149.6*	48G GDDR6x	696GB/s	Nvlink 112GB/s PCIe 64GB/s	查看
L4	Ada	PCIe	FP16：121/242T* TF32：60.5/121*	24G GDDR6x	300GB/s	64GB/s	查看
L2	Ada	PCIe	FP16：96.5T TF32：48.3T	24G GDDR6x	300GB/s	64GB/s	查看
V100	Volta	PCIe	FP16：32.71T FP32：16.35T FP64：8.177T	16/32G HBM2	1.13TB/s	Nvlink 300GB/s PCIe 32GB/s	查看
T4	Turing	PCIe	FP16：65.13T FP32：8.141T FP64：254.4G	16G GDDR6x	320GB/s	32GB/s	查看

请注意：以上内容根据公开数据整理，建议在决策前访问NVIDIA官方网站获取最权威和最新的数据！

参考：

Benchmarking NVIDIA Tensor Core MMA Instruction Peak Performances

Lei Mao's Log Book

Lei Mao

2025年11月26日 16:00

Reproducing NVIDIA Advertised GPU AI Peak Performances Using CUTLASS and CuTe

猜一下明天 NVDA 的财报

一亩三分地 - 热门帖子

fkym

2025年11月19日 09:17

我猜是 beat estimates , 但是展望有所调降。结果是NVDA跌4%左右，带动NASDAQ跌2%左右。

Nvidia offer

一亩三分地 - 热门帖子

地里匿名用户

2025年11月17日 11:15

阅读视图

一、并发推理显存计算核心公式

1.1 总显存构成

1.2 KV Cache显存计算公式

1.3 vLLM的内存分配机制

1.4 CPU与内存需求

二、7B模型并发推理资源需求

2.1 不同并发数的显存需求

2.2 资源需求总览

三、32B模型并发推理资源需求

3.1 不同并发数的显存需求

3.2 资源需求总览

四、70B模型并发推理资源需求

4.1 不同并发数的显存需求

4.2 资源需求总览

五、MoE模型（如DeepSeek-V3）的特殊考量

5.1 MoE模型显存构成

5.2 并行策略选择

5.3 资源估算示例（DeepSeek-V3 671B）

六、并发推理优化策略

6.1 vLLM核心参数调优

6.2 量化技术

6.3 抢占与分块预填充

七、快速参考表

不同并发度下的显存需求速查（FP16）

推荐配置速查

总结

一、三大资源的核心作用与估算原则

二、综合资源需求估算方法

场景一：纯GPU推理（高性能，低延迟）

场景二：CPU + GPU 异构推理（以显存换内存，突破单卡限制）

场景三：纯CPU推理（极致低成本，边缘计算）

场景四：极轻量级模型（1-bit时代的新选择）

三、快速查询表

大模型资源计算需求使用场景示例

一、7B模型资源需求示例（以Llama 2-7B / DeepSeek-7B为例）

场景1：纯GPU推理（FP16精度）

场景2：LoRA微调（参数高效）

场景3：全量微调（混合精度）

二、32B模型资源需求示例（以DeepSeek-32B / Qwen-32B为例）

场景1：纯GPU推理（FP16精度）

场景2：QLoRA微调（4-bit量化）

场景3：全量微调（混合精度）

三、70B模型资源需求示例（以Llama 2-70B / DeepSeek-70B为例）

场景1：纯GPU推理（FP16精度）

场景2：QLoRA微调（4-bit量化）

场景3：全量微调（混合精度）

四、快速选型参考表

总结与建议

一、显存占用核心组成部分

1. 模型参数

2. 梯度

3. 优化器状态

4. 激活值

5. KV Cache（推理时）

6. 其他

二、资源需求核心计算公式

1. 推理场景显存公式

2. 训练场景显存公式

3. CPU与内存需求原则

三、实际计算示例

示例1：推理场景 - 加载Llama 2 7B模型 (FP16)

示例2：训练场景 - 微调Llama 2 7B (混合精度训练)

示例3：常见模型的推理显存需求

四、降低显存占用的技巧

1. 量化技术

2. 参数高效微调

3. 梯度检查点

4. 分布式策略

五、实用工具推荐

六、快速估算口诀

核心功能

nvidia-smi输出字段解析

常用命令与实战技巧

进阶管理功能

典型问题排查思路

总结

为什么 Go 开发者需要关注 GPU？

GPU架构与CUDA编程模型速览——理解 GPU 的“兵团”

0. 什么是 Kernel？