Skip to main content

22 Avr, 2021

La monstrueuse nouvelle puce d’IA de Cerebras ajoute 1,4 trillion de transistors

La monstrueuse nouvelle puce d’IA de Cerebras ajoute 1,4 trillion de transistors

Le passage à un processus de 7 nanomètres porte le nombre de transistors de la puce de deuxième génération à un chiffre ahurissant de 2,6 trillions.

Dès le moment où Cerebras Systems a annoncé un ordinateur basé sur la plus grande puce informatique jamais construite, la startup de la Silicon Valley a déclaré son intention de construire un processeur encore plus puissant. Aujourd’hui, la société a annoncé que sa puce de nouvelle génération, le Wafer Scale Engine 2 (WSE 2), sera disponible au troisième trimestre de cette année. Le WSE 2 est aussi gros physiquement que son prédécesseur, mais il est doté de quantités énormément plus importantes de tout. L’objectif est de devancer la taille toujours plus grande des réseaux neuronaux utilisés dans l’apprentissage automatique.

« Dans le domaine du calcul de l’IA, les grosses puces sont reines, car elles traitent l’information plus rapidement, produisant des réponses en moins de temps – et le temps est l’ennemi du progrès en IA », a déclaré Dhiraj Malik, vice-président de l’ingénierie matérielle.

Cerebras a toujours cherché à pousser à l’extrême une solution logique au problème de l’apprentissage automatique. L’apprentissage des réseaux neuronaux prend trop de temps – des semaines pour les plus gros – lorsqu’Andrew Feldman a cofondé l’entreprise en 2015. Le plus gros goulot d’étranglement était que les données devaient faire la navette entre le processeur et la mémoire DRAM externe, ce qui consommait à la fois du temps et de l’énergie.

Les inventeurs du Wafer Scale Engine original ont compris que la solution consistait à rendre la puce suffisamment grande pour contenir toutes les données dont elle avait besoin, juste à côté de ses cœurs de processeur d’IA. Avec les gigantesques réseaux de traitement du langage naturel, de reconnaissance d’images et d’autres tâches qui se profilent à l’horizon, il faudrait une très grosse puce. De quelle taille ? Aussi grande que possible, c’est-à-dire la taille d’une tranche entière de silicium (sans les parties rondes), soit 46 225 millimètres carrés.

Cette taille de plaquette est l’une des seules statistiques qui n’a pas changé entre la version WSE et la nouvelle version WSE 2, comme vous pouvez le voir dans le tableau ci-dessous. (Pour la comparaison avec un processeur d’IA plus conventionnel, Cerebras utilise le A100 de Nvidia, qui domine les cartes d’IA) :

Comment cela est-il arrivé ?

Le facteur le plus évident et le plus important est le passage du processus de fabrication de 16 nanomètres de TSMC – qui avait plus de cinq ans au moment de la sortie de WSE – au processus de 7 nanomètres de la mégafabrique, qui a dépassé le processus de 10 nanomètres. Un tel saut permet de doubler la densité des transistors. Le changement de processus devrait également se traduire par une amélioration d’environ 40 % de la vitesse et une réduction de 60 % de la puissance, selon la description que fait TSMC de ses technologies.

« Il y a toujours des défis de conception physique lorsque vous changez de nœud », explique Andrew Feldman. « Toutes sortes de choses dépendent de la géométrie. Ces défis étaient vraiment difficiles à relever, mais nous avions un partenaire extraordinaire en la personne de TSMC. »

Le passage au 7-nm serait à lui seul une grande amélioration, mais selon Andrew Feldman, la société a également apporté des améliorations à la microarchitecture de ses cœurs d’IA. Il n’a pas voulu entrer dans les détails, mais il affirme qu’après plus d’un an de collaboration avec les clients, Cerebras a tiré certaines leçons et les a intégrées dans les nouveaux cœurs.

Ce qui nous amène à l’élément suivant qui est à l’origine des changements entre WSE et WSE 2 : les clients. Bien que Cerebras en ait eu quelques-uns lors du lancement de WSE (tous n’ont pas été divulgués à l’époque), la liste est beaucoup plus longue aujourd’hui et l’entreprise a beaucoup plus d’expérience pour les servir. La liste des clients est très riche en informatique scientifique :

Enfin, il y a la grande augmentation de la taille de l’entreprise. En 2019, Cerebras n’avait qu’un seul petit bâtiment à Sunnyvale. « L’équipe a fondamentalement doublé de taille », déclare Andrew Feldman. L’entreprise compte désormais environ 300 ingénieurs dans la Silicon Valley, à San Diego, à Toronto et à Tokyo, et plus d’une douzaine de postes ouverts répertoriés sur son site Web.

Qu’est-ce qui n’a pas changé (beaucoup) ?

Pour des raisons assez évidentes, la taille de la puce elle-même n’a pas changé. La taille maximale d’une tranche de silicium pour la production de masse est toujours de 300 millimètres, ce qui signifie que les dimensions extérieures de la puce ne peuvent pas changer. Et bien qu’elle ait deux fois plus de cœurs d’intelligence artificielle, la WSE-2 ressemble à la WSE à l’œil nu. Elle est toujours divisée en une grille de rectangles de 7 x 12, mais c’est juste un artefact du processus de fabrication de la puce.

Le système informatique qui héberge le WSE 2, appelé CS-2, n’a pas vraiment changé non plus. « Nous avons pu conserver des parties importantes de la conception physique », souligne Andrew Feldman.

Le CS-2 de Cerebras Systems occupe un tiers d’un rack standard dans un centre de données. Photo : Cerebras Systems

Le CS-2 occupe toujours un tiers d’un rack standard, consomme environ 20 kilowatts, s’appuie sur un système de refroidissement liquide en circuit fermé et dispose de ventilateurs de refroidissement assez puissants. La chaleur avait été l’un des principaux problèmes lors du développement d’un système hôte pour le WSE original. Cette puce devait être alimentée par un courant de 20 000 ampères provenant d’un million de connexions en cuivre à un circuit imprimé en fibre de verre situé sur la tranche.

Pour maintenir l’alignement de tous ces éléments à mesure que la chaleur dilatait la plaquette et le circuit imprimé, il a fallu inventer de nouveaux matériaux, ce qui a nécessité plus d’un an de développement. Si le CS-2 a nécessité une nouvelle ingénierie, il n’a pas eu besoin d’un tel degré d’invention globale, selon Feldman. (Avec toutes les choses qui n’ont pas changé, la plongée en profondeur que nous avons faite sur le CS-1 de Cerebras est toujours d’actualité. Il détaille certaines des nombreuses choses qui ont dû être inventées pour donner vie à cet ordinateur).

La façon dont le CS-2 utilise ces centaines de milliers de cœurs pour former un réseau neuronal est un autre point commun. Le logiciel permet aux utilisateurs d’écrire leurs modèles d’apprentissage automatique à l’aide de cadres standard tels que PyTorch et TensorFlow. Ensuite, son compilateur consacre des portions physiquement contiguës et de taille variable du WSE-2 à différentes couches du réseau neuronal spécifié.

Pour ce faire, il résout un problème d’optimisation de type « place and route » qui garantit que les couches terminent toutes leur travail à peu près au même rythme, afin que les informations puissent circuler dans le réseau sans se bloquer. Cerebras a dû s’assurer que le « logiciel était suffisamment robuste pour compiler non seulement 400 000 cœurs, mais 850 000 cœurs… pour effectuer le placement et l’acheminement sur des choses 2 à 2,3 fois plus grandes », conclut Andrew Feldman.

https://spectrum.ieee.org/tech-talk/semiconductors/processors/cerebras-giant-ai-chip-now-has-a-trillions-more-transistors

https://cerebras.net/