科学计算显卡

70 0 0

显卡型号

A100：基于 Ampere 架构，发布于 2020 年。价格为 6～9 万。

架构：Ampere
制程工艺：7nm
CUDA 核心：6912
Tensor 核心：432
显存：40 GB 或 80 GB HBM2e，带宽高达 1.6 TB/s
峰值 FP64 性能：9.7 TFLOPS
峰值 FP32 性能：19.5 TFLOPS
混合精度性能：312 TFLOPS（TF32 with sparsity）
NVLink 带宽：600 GB/s（双向，使用 NVLink 3.0）
多实例 GPU (MIG)：支持将单个 A100 GPU 划分为最多 7 个独立的 GPU 实例，以提高资源利用率和灵活性。
功耗：300-400W（取决于具体型号和配置）

H100：基于 Hopper 架构，发布于 2022 年。

架构：Hopper
制程工艺：4nm
CUDA 核心：16896
Tensor 核心：528
显存：80 GB HBM3，带宽高达 3.2 TB/s
峰值 FP64 性能：30 TFLOPS
峰值 FP32 性能：60 TFLOPS
混合精度性能：1000 TFLOPS（FP16 with sparsity）
NVLink 带宽：900 GB/s（双向，使用 NVLink 4.0）
多实例 GPU (MIG)：支持将单个 H100 GPU 划分为最多 7 个独立的 GPU 实例。
Transformer Engine：专门优化 Transformer 模型的性能，加速自然语言处理任务。
功耗：300-700W（取决于具体型号和配置）

NVIDIA Datacenter GPUs

显卡算力排行榜（源自 AutoDL）：

科学计算显卡

接口类型

SXM4 和 PCIe

物理接口和安装方式

SXM4：

物理接口：SXM4 是一种专有的模块化接口，由 NVIDIA 设计用于高性能计算和深度学习加速卡。
安装方式：SXM4 GPU 通常安装在 NVIDIA DGX 系统或其他高性能服务器中，通过专用的插槽进行连接，确保高效的散热和电气性能。

PCIe：

物理接口：PCIe 是一种通用的接口标准，用于连接各种类型的扩展卡，包括 GPU、网卡、存储控制器等。
安装方式：PCIe GPU 通常插入主板上的 PCIe 插槽，用于台式机、工作站和服务器。

数据传输速率

SXM4：

高带宽：SXM4 使用 NVIDIA NVLink 技术，提供更高的带宽和更低的延迟。每个 NVLink 2.0 通道支持 25 GB/s 的双向带宽，多通道组合可提供数百 GB/s 的带宽。
低延迟：由于 NVLink 的高效互连设计，SXM4 GPU 间的数据传输延迟较低，有利于深度学习和高性能计算任务。

PCIe：

带宽受限：PCIe 4.0 每通道提供 2 GB/s 的带宽（双向），16 通道（x16）配置下总带宽为 32 GB/s（双向）。PCIe 5.0 的带宽翻倍，但仍不及 NVLink 提供的总带宽。
延迟相对较高：相比 NVLink，PCIe 的延迟较高，可能会影响高度并行计算任务的性能。

热管理和功耗

SXM4：

热管理：由于采用专用的模块化设计，SXM4 GPU 通常配备更高效的散热解决方案，包括水冷或更高级的风冷系统。
功耗：SXM4 GPU 通常具有更高的功耗上限，适用于需要极高计算性能的任务。

PCIe：

热管理：PCIe GPU 通常依赖于主板和机箱的散热方案，可能需要额外的散热器或风扇。
功耗：PCIe GPU 的功耗上限通常较低，适合一般的工作站和服务器环境。

适用场景

SXM4：

高性能计算（HPC）：适用于科学模拟、大规模并行计算任务。
深度学习：特别适用于需要高速互连和高带宽的深度学习训练和推理任务。
数据中心：常用于高性能计算集群和数据中心环境。

PCIe：

台式机和工作站：适用于一般的图形处理、游戏开发、视频编辑等任务。
服务器：用于不需要极高带宽和低延迟的服务器应用，如虚拟化、数据库等。