La GPU insignia NVIDIA GH100 Hopper mide alrededor de 1000 mm2, lo que la convierte en la GPU más grande jamás creada

NVIDIA podría tener algunos problemas para registrar la marca comercial de sus GPU Hopper de próxima generación, pero eso no impide el desarrollo del modelo insignia GH100, ya que el último rumor de kopite7kimi afirma que el chip mediría alrededor de 1000 mm2.

NVIDIA GH100 GPU, el chip insignia de última generación para centros de datos, medirá alrededor de 1000 mm2

Actualmente, la GPU más grande en producción es NVIDIA Ampere GA100, que mide 826 mm2. Si el rumor es correcto, entonces Hopper GH100 de NVIDIA se convertirá en el diseño de GPU más grande jamás concebido, con unas medidas de alrededor de 1000 mm2, superando fácilmente a las monstruosas GPU actuales en al menos 100 mm2.

Pero eso no es todo, el tamaño del troquel en cuestión es para un solo troquel de GPU GH100 y hemos escuchado rumores de que Hopper será el primer diseño de chip MCM de NVIDIA, por lo que considerando que tenemos al menos dos GPU Hopper GH100 en el mismo intercalador, los troqueles solos mediría 2000 mm2. Todo esto significa que el intercalador sería mucho más grande de lo que hemos visto hasta ahora, considerando que incluirá varias pilas HBM2e y otra conectividad a bordo. Sin embargo, Greymon55 ha declarado que Hopper seguirá siendo un diseño monolítico, por lo que queda por ver cuál sería el diseño final del chip.

NVIDIA Hopper GPU: todo lo que sabemos hasta ahora

Por información anterior, sabemos que el acelerador H100 de NVIDIA se basaría en una solución MCM y utilizaría el nodo de proceso de 5nm de TSMC. Se supone que Hopper tiene dos módulos de GPU de próxima generación, por lo que estamos viendo 288 unidades SM en total.

Todavía no podemos dar un resumen del recuento de núcleos, ya que no sabemos la cantidad de núcleos que aparecen en cada SM, pero si se mantiene en 64 núcleos por SM, entonces obtenemos 18 432 núcleos, que son 2,25 veces más que el Configuración completa de GPU GA100. NVIDIA también podría aprovechar más núcleos FP64, FP16 y Tensor dentro de su GPU Hopper, lo que aumentaría enormemente el rendimiento. Y eso va a ser una necesidad para competir con el Ponte Vecchio de Intel, que se espera que presente 1:1 FP64.

Es probable que la configuración final venga con 134 de las 144 unidades SM habilitadas en cada módulo de GPU y, como tal, es probable que estemos viendo un solo troquel GH100 en acción. Pero es poco probable que NVIDIA alcance los mismos fracasos de FP32 o FP64 que MI200 sin usar GPU Sparsity.

Pero es probable que NVIDIA tenga un arma secreta bajo la manga y esa sería la implementación de Hopper en la GPU basada en COPA. NVIDIA habla de dos COPA-GPU especializadas en dominios basadas en arquitectura de próxima generación, una para HPC y otra para el segmento DL. La variante HPC presenta un enfoque muy estándar que consiste en un diseño de GPU MCM y los respectivos chipsets HBM/MC+HBM (IO), pero la variante DL es donde las cosas comienzan a ponerse interesantes. La variante DL alberga un enorme caché en un troquel completamente separado que está interconectado con los módulos GPU.

Arquitectura Capacidad LLC DRAM BW Capacidad DRAM
Configuración (MEGABYTE) (TB/s) (GB)
GPU-N 60 2.7 100
COPA-GPU-1 960 2.7 100
COPA-GPU-2 960 4.5 167
COPA-GPU-3 1,920 2.7 100
COPA-GPU-4 1,920 4.5 167
COPA-GPU-5 1,920 6.3 233
Perfecto L2 infinito infinito infinito

Se han descrito varias variantes con hasta 960/1920 MB de LLC (último nivel de caché), capacidades de DRAM HBM2e de hasta 233 GB y ancho de banda de hasta 6,3 TB/s. Todos estos son teóricos, pero dado que NVIDIA los ha discutido ahora, es probable que veamos una variante de Hopper con ese diseño durante la presentación completa en GTC 2022.

NVIDIA Hopper GH100 ‘Especificaciones preliminares’:

Tarjeta gráfica NVIDIA Tesla tesla k40
(PCI-Express)
tesla m40
(PCI-Express)
tesla p100
(PCI-Express)
Tesla P100 (SXM2) Tesla V100 (SXM2) NVIDIA A100 (SXM4) NVIDIA H100 (¿SMX4?)
GPU GK110 (Kepler) GM200 (Maxwell) GP100 (Pascales) GP100 (Pascales) GV100 (Voltaje) GA100 (amperios) GH100 (Tolva)
Nodo de proceso 28nm 28nm 16nm 16nm 12nm 7 nm 5nm
transistores 7.1 mil millones 8 mil millones 15,3 mil millones 15,3 mil millones 21.1 mil millones 54,2 mil millones Por determinar
Tamaño de matriz de GPU 551 mm2 601 mm2 610 mm2 610 mm2 815 mm2 826mm2 ~1000mm2?
SMS 15 24 56 56 80 108 134 (por módulo)
TPC 15 24 28 28 40 54 Por determinar
Núcleos CUDA FP32 por SM 192 128 64 64 64 64 64?
Núcleos CUDA FP64 / SM 64 4 32 32 32 32 32?
Núcleos CUDA FP32 2880 3072 3584 3584 5120 6912 8576 (por módulo)
17152 (completo)
Núcleos CUDA FP64 960 96 1792 1792 2560 3456 4288 (por módulo)?
8576 (Completo)?
Núcleos tensoriales N / A N / A N / A N / A 640 432 Por determinar
Unidades de textura 240 192 224 224 320 432 Por determinar
Reloj de impulso 875 MHz 1114 MHz 1329MHz 1480 MHz 1530 MHz 1410 MHz ~1400MHz
TOP (DNN/AI) N / A N / A N / A N / A 125 TOPS 1248 tapas
2496 TOP con escasez
Por determinar
Cómputo FP16 N / A N / A 18,7 TFLOP 21,2 TFLOP 30,4 TFLOP 312 TFLOP
624 TFLOP con escasez
779 TFLOP (por módulo)?
¿1558 TFLOP con escasez (por módulo)?
Cómputo FP32 5.04 TFLOP 6.8 TFLOP 10,0 TFLOP 10,6 TFLOP 15,7 TFLOP 19.4 TFLOP
156 TFLOP con escasez
24.2 TFLOP (por módulo)?
193.6 TFLOPs con escasez?
Cómputo FP64 1,68 TFLOP 0,2 TFLOP 4.7 TFLOP 5,30 TFLOP 7,80 TFLOP 19,5 TFLOP
(9,7 TFLOP estándar)
24.2 TFLOP (por módulo)?
(estándar de 12,1 TFLOP)?
interfaz de memoria GDDR5 de 384 bits GDDR5 de 384 bits HBM2 de 4096 bits HBM2 de 4096 bits HBM2 de 4096 bits HBM2e de 6144 bits HBM2e de 6144 bits
Tamaño de la memoria 12 GB GDDR5 a 288 GB/s 24 GB GDDR5 a 288 GB/s 16 GB HBM2 a 732 GB/s
12 GB HBM2 a 549 GB/s
16 GB HBM2 a 732 GB/s 16 GB HBM2 a 900 GB/s Hasta 40 GB HBM2 a 1,6 TB/s
Hasta 80 GB HBM2 a 1,6 TB/s
Hasta 100 GB HBM2e a 3,5 Gbps
Tamaño de caché L2 1536KB 3072KB 4096KB 4096KB 6144KB 40960KB 81920KB
TDP 235W 250W 250W 300W 300W 400W ~450-500W


Leave a Comment