Skip to main content

15 Déc, 2023

Le prochain GPU d’AMD est une superpuce intégrée à la 3D 

Le prochain GPU d’AMD est une superpuce intégrée à la 3D 

Le MI300 fait en sorte que 13 morceaux de silicium se comportent comme une seule puce

AMD a levé le capot de sa prochaine puce accélératrice d’IA, l’Instinct MI300, lors du AMD Advancing AI aujourd’hui, et c’est un exploit sans précédent en matière d’intégration 3D. Le MI300, dont une version alimentera le supercalculateur El Capitan, est un gâteau en couches d’informatique, de mémoire et de communication composé de trois tranches de silicium et qui peut transférer jusqu’à 17 téraoctets de données verticalement entre ces tranches.

Le résultat est une vitesse jusqu’à 3,4 fois supérieure pour certains calculs critiques pour l’apprentissage automatique. La puce offre à la fois des contrastes et des similitudes avec des approches concurrentes telles que la superpuce Grace Hopper de Nvidia et l’accélérateur de supercalculateur d’Intel Ponte Vecchio<. /span>.

Le MI300a empile trois chiplets de processeur (appelés puces complexes de calcul, ou CCD, dans le jargon d’AMD) et six chiplets d’accélérateur (XCD) sur le dessus, de quatre puces d’entrée-sortie (IOD), le tout posé sur un morceau de silicium qui les relie entre eux à huit piles de DRAM à large bande passante qui entourent la superpuce. (Le MI300x remplace les CCD par deux XCD supplémentaires, pour un système uniquement à accélérateur.) Avec le ralentissement de la mise à l’échelle des transistors dans le plan du silicium, l’empilement 3D est considéré comme une méthode clé pour amener plus de transistors dans la même zone et continuez à faire avancer la loi de Moore.

Les chipsets de calcul et d’IA sont empilés au-dessus des chiplets d’E/S et de cache du MI300a.AMD

« Il s’agit d’un empilement de silicium vraiment étonnant qui offre les performances de densité les plus élevées que l’industrie sait produire à l’heure actuelle », déclare Sam Naffziger, vice-président senior et membre d’entreprise chez AMD. L’intégration se fait à l’aide de deux technologies de Taiwan Semiconductor Manufacturing Co., SoIC (système sur puces intégrées) et CoWoS (puce sur plaquette sur substrat).

Ce dernier empile des puces plus petites sur des puces plus grandes à l’aide d’une liaison hybride, qui relie directement les plots de cuivre de chaque puce sans soudure. Il est utilisé pour produire le V-Cache d’AMD, un chipset d’extension de mémoire cache qui s’empile sur ses chipsets de processeur haut de gamme. Le premier, CoWos, empile des chipsets sur un morceau de silicium plus grand, appelé interposeur, conçu pour contenir des interconnexions haute densité.

Similitudes et différences entre AMD et Nvidia

Il existe à la fois des similitudes et des différences dans l’approche de son principal rival Nvidia. Tout comme Nvidia l’a fait dans son architecture Hopper, l’architecture d’accélérateur d’AMD, CDNA3, a ajouté la capacité de calculer avec nombres tronqués de 32 bits appelés TF32 et avec deux différents formes de nombres à virgule flottante de 8 bits. Ce dernier attribut est utilisé pour accélérer la formation de certaines parties des réseaux neuronaux de transformateur, tels que les grands modèles de langage. Ils incluent également tous deux un schéma qui réduit la taille du réseau neuronal, appelé parcimonie 4:2.

Une autre similitude est l’inclusion du CPU et du GPU dans le même package. Dans de nombreux systèmes informatiques d’IA, les GPU et les CPU sont des puces emballées séparément et déployées dans un rapport de 4 pour 1. L’un des avantages de les réunir dans une seule superpuce est que le CPU et le GPU ont tous deux un accès à large bande passante au même cache et à la même DRAM à large bande passante (HBM), de manière à ne pas se faire trébucher lorsqu’ils lisent et écrivent des données. .

Le Grace Hopper de Nvidia est une telle combinaison de superpuces reliant le processeur Grace au GPU Hopper via les interconnexions Nvidia NVLink Chip-2-Chip. Le MI300a d’AMD l’est également, en intégrant trois processeurs conçus pour sa gamme Genoa et six accélérateurs XCD utilisant sa technologie d’interconnexion AMD Infinity Fabric.

Mais un simple coup d’œil sur Grace Hopper et le MI300 révèle de profondes différences. Grace et Hopper sont chacun des puces individuelles qui intègrent tous les blocs fonctionnels nécessaires à un système sur puce : calcul, E/S et cache. Ils sont reliés horizontalement et sont grands, presque à la limite de la technologie de photolithographie.

AMD a adopté une approche différente, qu’elle suit depuis plusieurs générations de ses processeurs et que son rival Intel utilise pour ses processeurs empilés en 3D. accélérateur de supercalculateur Ponte Vecchio. Le concept est appelé co-optimisation système-technologie, ou STCO. Cela signifie que les concepteurs ont commencé par décomposer la puce en fonctions et ont décidé quelles fonctions nécessitaient quelle technologie de fabrication.

Une tranche de pile MI300 depuis le silicium porteur en haut jusqu’à la bille de soudure en bas du boîtier.AMD

« Ce que nous voulions faire avec le MI300, c’était aller au-delà de ce qui était possible dans un seul GPU monolithique. Nous l’avons donc déconstruit en morceaux, puis nous l’avons reconstruit », explique Alan Smith, chercheur principal et architecte en chef d’Instinct. Bien que ce soit le cas depuis plusieurs générations de processeurs, le MI300 est la première fois que la société crée des chipsets GPU et les regroupe dans un seul système.

« La division du GPU en chipsets nous a permis de placer le calcul dans le nœud de processus le plus avancé tout en conservant le reste de la puce dans une technologie plus appropriée pour le cache et les E/S », explique-t-il.

Dans le cas du MI300, tous les calculs ont été construits à l’aide du processus N5 de TSMC, le plus avancé disponible et celui utilisé pour les GPU haut de gamme de Nvidia. Ni les fonctions d’E/S ni la mémoire cache du système ne bénéficient du N5, AMD a donc choisi une technologie moins coûteuse (N6) pour celles-ci. Par conséquent, ces deux fonctions pourraient alors être construites ensemble sur le même chiplet.

Les fonctions étant divisées, tous les morceaux de silicium impliqués dans le MI300 sont petits. Les plus grandes, les matrices d’E/S, ne font même pas la moitié de la taille de Hopper. Et les CCD ne font qu’environ un cinquième de la taille de la puce d’E/S. Les petites tailles font une grande différence. Généralement, les copeaux plus petits donnent de meilleurs résultats. Autrement dit, une seule plaquette fournira une proportion plus élevée de petites puces fonctionnelles que de grosses puces.

« L’intégration 3D n’est pas gratuite », explique Sam Naffziger. Mais le rendement plus élevé compense le coût, dit-il.

Chance et expérience

La conception impliquait une réutilisation intelligente des technologies et des conceptions existantes, quelques compromis et un peu de chance, selon Sam Naffziger, membre de l’IEEE. La réutilisation s’est produite dans deux cas. Premièrement, AMD a pu réaliser l’intégration 3D avec un certain degré de confiance car il utilisait déjà exactement le même pas d’interconnexions verticales (9 micromètres) dans son produit V-cache.

En tant que module complémentaire optionnel pour lequel AMD a pu facturer un supplément, le V-cache présente peu de risques qu’un faible rendement ou d’autres problèmes aient un impact important sur l’entreprise. « Cela nous a permis de résoudre les problèmes de fabrication et toutes les complexités de conception de l’empilement 3D sans mettre en danger la gamme de produits principale », déclare Sam Naffziger.

L’autre exemple de réutilisation était un peu plus aléatoire. Lorsque l’équipe du MI300 a décidé qu’une combinaison CPU/GPU était nécessaire, Sam Naffziger a demandé « un peu penaud » au chef de l’équipe concevant le Zen4 CCD pour le CPU Genoa si le CCD pouvait être adapté aux besoins du MI300.

Cette équipe était sous pression pour respecter un délai plus tôt que prévu, mais un jour plus tard, elle a répondu. Sam Naffziger a eu de la chance ; le CCD Zen4 disposait d’un petit espace vide juste au bon endroit pour établir les connexions verticales à la puce d’E/S MI300 et à leurs circuits associés sans perturber la conception globale.

Néanmoins, il restait encore quelques éléments de géométrie à résoudre. Pour que toutes les communications internes fonctionnent, les quatre chipsets d’E/S devaient se faire face sur un bord particulier. Cela signifiait créer une version miroir du chiplet. Parce qu’il a été conçu avec le chipset d’E/S, le XCD et ses connexions verticales ont été conçus pour être reliés aux deux versions d’E/S.

Mais il n’y a eu aucun problème avec le CCD, qu’ils ont eu la chance d’avoir. Ainsi, les E/S ont été conçues avec des connexions redondantes, de sorte que quelle que soit la version du chipset sur laquelle elles sont installées, le CCD se connecte.

Pour que tout s’aligne, les chiplets IOD ont dû être créés comme des miroirs les uns des autres, et les chiplets d’accélérateur (XCD) et de calcul (CCD) ont dû être tournés.

Le réseau électrique, qui doit fournir des centaines d’ampères de courant aux puces de calcul situées au sommet de la pile, a été confronté à des défis similaires car il devait également s’adapter à toutes les différentes orientations des chipsets, a noté Sam Naffziger.

https://spectrum.ieee.org/amd-mi300