英伟达秀 Blackwell GPU 肌肉：训练 AI 模型速度比Hopper快2.2倍

原标题：英伟达秀 Blackwell GPU 肌肉：训练 AI 模型速度比Hopper快2.2倍

导读：

在欧洲协会联赛的首轮较量中华沙莱吉亚迎战皇家贝蒂斯上半场维纳格雷传中卡普阿迪头球破门率先改写比分下半场双方再无进球最终华沙莱吉亚小胜皇家贝蒂斯之家月日消息科技媒体昨日月日发布博...

在欧洲协会联赛的首轮较量中，华沙莱吉亚迎战皇家贝蒂斯。上半场，维纳格雷传中，卡普阿迪头球破门率先改写比分。下半场双方再无进球。最终华沙莱吉亚1-0小胜皇家贝蒂斯。

IT之家 11 月 14 日消息，科技媒体 WccfTech 昨日（11 月 13 日）发布博文，报道称英伟达首次公布了 Blackwell GPU 在 Perf v4.1 AI 训练工作负载中的成绩，在训练 Llama 2 70B (Fine-Tuning) 模型时比 Hopper 快 2.2 倍。

英伟达于今年 8 月，首次公布了 Blackwell GPU 在 Perf v4.1 AI 推理方面的基准成绩，而今天首次公布了该 GPU 在 Perf v4.1 AI 训练工作负载方面的成绩。

NVIDIA 表示，随着新模型的推出，AI 领域对计算的需求正在以指数级增长，因此需要大幅提升训练和推理 AI 的能力，IT之家附上本次训练工作负载主要使用的模型如下：

Llama 2 70B（LLM 微调）

Stable Diffusion（文本到图像）

DLRMv2（推荐系统）

BERT（自然语言处理）

RetinaNet（目标检测）

GPT-3 175B（LLM 预训练）

R-GAT（图神经）

这些工作负载的基准为评估 AI 加速器的训练性能提供了准确的数据支持。

Hopper GPU 自发布以来，经过持续的软件优化，性能得到了显著提升。H100 GPU 在 LLM 预训练性能上比首次提交时快了 1.3 倍，并且在 GPT-3（175B 训练）中实现了 70% 的性能提升。

英伟达利用 11616 个 H100 GPU 进行了 Perf 的最大规模提交，进一步证明了其在数据中心级别的强大能力。

Blackwell GPU 的设计旨在提高每个 GPU 的计算吞吐量，配备更大更快的高带宽内存，不降低性能的前提下，能够在更少的 GPU 上运行 GPT-3 175B 基准。

根据结果，64 张 Blackwell GPU 的性能，可以达到 256 张 Hopper GPU 的水平。

标签：训练 GPU

原标题：英伟达秀 Blackwell GPU 肌肉：训练 AI 模型速度比Hopper快2.2倍

相关文章 关键词：训练GPU

相关文章
关键词：训练 GPU