NVIDIA podría tener algunos problemas para registrar la marca comercial de sus GPU Hopper de próxima generación, pero eso no impide el desarrollo del modelo insignia GH100, ya que el último rumor de kopite7kimi afirma que el chip mediría alrededor de 1000 mm2.
NVIDIA GH100 GPU, el chip insignia de última generación para centros de datos, medirá alrededor de 1000 mm2
Actualmente, la GPU más grande en producción es NVIDIA Ampere GA100, que mide 826 mm2. Si el rumor es correcto, entonces Hopper GH100 de NVIDIA se convertirá en el diseño de GPU más grande jamás concebido, con unas medidas de alrededor de 1000 mm2, superando fácilmente a las monstruosas GPU actuales en al menos 100 mm2.
Pero eso no es todo, el tamaño del troquel en cuestión es para un solo troquel de GPU GH100 y hemos escuchado rumores de que Hopper será el primer diseño de chip MCM de NVIDIA, por lo que considerando que tenemos al menos dos GPU Hopper GH100 en el mismo intercalador, los troqueles solos mediría 2000 mm2. Todo esto significa que el intercalador sería mucho más grande de lo que hemos visto hasta ahora, considerando que incluirá varias pilas HBM2e y otra conectividad a bordo. Sin embargo, Greymon55 ha declarado que Hopper seguirá siendo un diseño monolítico, por lo que queda por ver cuál sería el diseño final del chip.
GH100 tiene un troquel único enorme de poco menos de 1000 mm².
— kopite7kimi (@kopite7kimi) 29 de enero de 2022
GH100 no tiene MCM, sigue siendo monolítico.
— Greymon55 (@greymon55) 29 de enero de 2022
NVIDIA Hopper GPU: todo lo que sabemos hasta ahora
Por información anterior, sabemos que el acelerador H100 de NVIDIA se basaría en una solución MCM y utilizaría el nodo de proceso de 5nm de TSMC. Se supone que Hopper tiene dos módulos de GPU de próxima generación, por lo que estamos viendo 288 unidades SM en total.
Todavía no podemos dar un resumen del recuento de núcleos, ya que no sabemos la cantidad de núcleos que aparecen en cada SM, pero si se mantiene en 64 núcleos por SM, entonces obtenemos 18 432 núcleos, que son 2,25 veces más que el Configuración completa de GPU GA100. NVIDIA también podría aprovechar más núcleos FP64, FP16 y Tensor dentro de su GPU Hopper, lo que aumentaría enormemente el rendimiento. Y eso va a ser una necesidad para competir con el Ponte Vecchio de Intel, que se espera que presente 1:1 FP64.
Es probable que la configuración final venga con 134 de las 144 unidades SM habilitadas en cada módulo de GPU y, como tal, es probable que estemos viendo un solo troquel GH100 en acción. Pero es poco probable que NVIDIA alcance los mismos fracasos de FP32 o FP64 que MI200 sin usar GPU Sparsity.
Pero es probable que NVIDIA tenga un arma secreta bajo la manga y esa sería la implementación de Hopper en la GPU basada en COPA. NVIDIA habla de dos COPA-GPU especializadas en dominios basadas en arquitectura de próxima generación, una para HPC y otra para el segmento DL. La variante HPC presenta un enfoque muy estándar que consiste en un diseño de GPU MCM y los respectivos chipsets HBM/MC+HBM (IO), pero la variante DL es donde las cosas comienzan a ponerse interesantes. La variante DL alberga un enorme caché en un troquel completamente separado que está interconectado con los módulos GPU.
Arquitectura | Capacidad LLC | DRAM BW | Capacidad DRAM |
---|---|---|---|
Configuración | (MEGABYTE) | (TB/s) | (GB) |
GPU-N | 60 | 2.7 | 100 |
COPA-GPU-1 | 960 | 2.7 | 100 |
COPA-GPU-2 | 960 | 4.5 | 167 |
COPA-GPU-3 | 1,920 | 2.7 | 100 |
COPA-GPU-4 | 1,920 | 4.5 | 167 |
COPA-GPU-5 | 1,920 | 6.3 | 233 |
Perfecto L2 | infinito | infinito | infinito |
Se han descrito varias variantes con hasta 960/1920 MB de LLC (último nivel de caché), capacidades de DRAM HBM2e de hasta 233 GB y ancho de banda de hasta 6,3 TB/s. Todos estos son teóricos, pero dado que NVIDIA los ha discutido ahora, es probable que veamos una variante de Hopper con ese diseño durante la presentación completa en GTC 2022.
NVIDIA Hopper GH100 ‘Especificaciones preliminares’:
Tarjeta gráfica NVIDIA Tesla | tesla k40 (PCI-Express) |
tesla m40 (PCI-Express) |
tesla p100 (PCI-Express) |
Tesla P100 (SXM2) | Tesla V100 (SXM2) | NVIDIA A100 (SXM4) | NVIDIA H100 (¿SMX4?) |
---|---|---|---|---|---|---|---|
GPU | GK110 (Kepler) | GM200 (Maxwell) | GP100 (Pascales) | GP100 (Pascales) | GV100 (Voltaje) | GA100 (amperios) | GH100 (Tolva) |
Nodo de proceso | 28nm | 28nm | 16nm | 16nm | 12nm | 7 nm | 5nm |
transistores | 7.1 mil millones | 8 mil millones | 15,3 mil millones | 15,3 mil millones | 21.1 mil millones | 54,2 mil millones | Por determinar |
Tamaño de matriz de GPU | 551 mm2 | 601 mm2 | 610 mm2 | 610 mm2 | 815 mm2 | 826mm2 | ~1000mm2? |
SMS | 15 | 24 | 56 | 56 | 80 | 108 | 134 (por módulo) |
TPC | 15 | 24 | 28 | 28 | 40 | 54 | Por determinar |
Núcleos CUDA FP32 por SM | 192 | 128 | 64 | 64 | 64 | 64 | 64? |
Núcleos CUDA FP64 / SM | 64 | 4 | 32 | 32 | 32 | 32 | 32? |
Núcleos CUDA FP32 | 2880 | 3072 | 3584 | 3584 | 5120 | 6912 | 8576 (por módulo) 17152 (completo) |
Núcleos CUDA FP64 | 960 | 96 | 1792 | 1792 | 2560 | 3456 | 4288 (por módulo)? 8576 (Completo)? |
Núcleos tensoriales | N / A | N / A | N / A | N / A | 640 | 432 | Por determinar |
Unidades de textura | 240 | 192 | 224 | 224 | 320 | 432 | Por determinar |
Reloj de impulso | 875 MHz | 1114 MHz | 1329MHz | 1480 MHz | 1530 MHz | 1410 MHz | ~1400MHz |
TOP (DNN/AI) | N / A | N / A | N / A | N / A | 125 TOPS | 1248 tapas 2496 TOP con escasez |
Por determinar |
Cómputo FP16 | N / A | N / A | 18,7 TFLOP | 21,2 TFLOP | 30,4 TFLOP | 312 TFLOP 624 TFLOP con escasez |
779 TFLOP (por módulo)? ¿1558 TFLOP con escasez (por módulo)? |
Cómputo FP32 | 5.04 TFLOP | 6.8 TFLOP | 10,0 TFLOP | 10,6 TFLOP | 15,7 TFLOP | 19.4 TFLOP 156 TFLOP con escasez |
24.2 TFLOP (por módulo)? 193.6 TFLOPs con escasez? |
Cómputo FP64 | 1,68 TFLOP | 0,2 TFLOP | 4.7 TFLOP | 5,30 TFLOP | 7,80 TFLOP | 19,5 TFLOP (9,7 TFLOP estándar) |
24.2 TFLOP (por módulo)? (estándar de 12,1 TFLOP)? |
interfaz de memoria | GDDR5 de 384 bits | GDDR5 de 384 bits | HBM2 de 4096 bits | HBM2 de 4096 bits | HBM2 de 4096 bits | HBM2e de 6144 bits | HBM2e de 6144 bits |
Tamaño de la memoria | 12 GB GDDR5 a 288 GB/s | 24 GB GDDR5 a 288 GB/s | 16 GB HBM2 a 732 GB/s 12 GB HBM2 a 549 GB/s |
16 GB HBM2 a 732 GB/s | 16 GB HBM2 a 900 GB/s | Hasta 40 GB HBM2 a 1,6 TB/s Hasta 80 GB HBM2 a 1,6 TB/s |
Hasta 100 GB HBM2e a 3,5 Gbps |
Tamaño de caché L2 | 1536KB | 3072KB | 4096KB | 4096KB | 6144KB | 40960KB | 81920KB |
TDP | 235W | 250W | 250W | 300W | 300W | 400W | ~450-500W |