Tesla emballe 50 milliards de transistors sur la puce D1 Dojo conçue pour conquérir la formation en intelligence artificielle
Tesla emballe 50 milliards de transistors sur la puce D1 Dojo conçue pour conquérir la formation en intelligence artificielle

L’intelligence artificielle (IA) a été largement adoptée au cours des deux dernières années. Chez Tesla, qui, comme beaucoup le savent, est une entreprise qui travaille sur des véhicules électriques et autonomes, l’IA a une valeur énorme pour tous les aspects du travail de l’entreprise. Pour accélérer les charges de travail des logiciels d’IA, Tesla a présenté aujourd’hui son circuit intégré spécifique à l’application (ASIC) personnalisé D1 Dojo pour la formation à l’IA.
Il existe actuellement de nombreuses entreprises qui créent des ASIC pour les charges de travail d’IA. Tout le monde, d’un nombre incalculable de start-ups, jusqu’aux grands acteurs comme Amazon, Baidu, Intel et NVIDIA. Cependant, tout le monde ne comprend pas la bonne formule et tout le monde ne peut pas parfaitement satisfaire chaque charge de travail. C’est la raison pour laquelle Tesla a choisi de développer son propre ASIC à des fins de formation à l’IA.
Appelée D1, la puce ressemble à une partie du superordinateur Dojo utilisé pour former des modèles d’IA à l’intérieur du siège de Tesla, qui sont ensuite déployés dans diverses applications. La puce D1 est un produit des efforts de fabrication de TSMC, forgée dans un nœud semi-conducteur de 7 nm. Emballant plus de 50 milliards de transistors, la puce dispose d’une énorme taille de puce de 645 mm2.
La puce a des performances impressionnantes, où Tesla déclare qu’elle peut produire jusqu’à 362 TeraFLOP avec une précision FP16/CFP8 ou environ 22,6 TeraFLOP de tâches FP32 simple précision. Il est clair que Tesla a été optimisé pour les types de données FP16, où ils ont réussi à battre même le leader actuel de la puissance de calcul – Nvidia. Le GPU A100 Ampere de Nvidia est capable de produire « seulement » 312 TeraFLOP de puissance pour les charges de travail FP16 – et avec la rareté, il peut faire jusqu’au double.
En passant au niveau du silicium, nous voyons que Tesla a construit un maillage d’unités fonctionnelles (UF) qui sont interconnectées pour former une puce massive. Chaque UF contient un processeur 64 bits avec ISA personnalisé, conçu pour les transpositions, les collectes, les diffusions et les traversées de liens. La conception du processeur elle-même est une implémentation superscalaire avec un scalaire de 4 largeurs et des pipelines vectoriels de 2 largeurs.
En regardant les images ci-dessous, vous pouvez voir que le UF est construit avec un gros bloc pour les éléments de traitement en virgule flottante et en nombres entiers à instruction unique multiple (SIMD). Chaque FU a sa propre mémoire SRAM de bloc-notes de 1,25 Mo.

Le UF lui-même est capable d’effectuer un TeraFLOP de BF16 ou CFP8, 64 GigaFLOPs de calcul FP32 et dispose d’une bande passante de 512 Go/s dans n’importe quelle direction du maillage. Le maillage est conçu pour traverser les UF en un seul cycle d’horloge, ce qui signifie que les latences sont réduites et les performances sont augmentées.