Le moteur d'échelle de wafer de Cerebras Systems est un processeur de mille milliards de transistors dans une wafer de 12 '



This news isn't properly today's, but it's relevant and interesting enough that I think warrants a news piece on our page. My reasoning is this: in an era where Multi-Chip Modules (MCM) and a chiplet approach to processor fabrication has become a de-facto standard for improving performance and yields, a trillion-transistor processor that eschews those modular design philosophies is interesting enough to give pause.

Le moteur Wafer Scale a été développé par Cerebras Systems pour faire face à l'augmentation continue de la demande de moteurs d'entraînement à l'IA. Cependant, dans les charges de travail où la latence se produit un impact très réel sur les temps de formation et la capacité d'un système, Cerebras voulait concevoir un processeur qui évite d'avoir besoin d'une voie de communication pour que tous ses cœurs communiquent - le système n'est limité, fondamentalement, que par des transistors. 'temps de commutation. Ses 400 000 cœurs communiquent de manière transparente via des interconnexions gravées sur 42 225 millimètres carrés de silicium (en comparaison, le plus grand GPU de NVIDIA est 56,7 fois plus petit à `` seulement '' 815 millimètres carrés).

Cependant, dans un monde où la fabrication de plaquettes de silicium a toujours des défauts de fabrication qui peuvent rendre des puces entières inopérantes, comment Cerebras a-t-il réussi à construire un processeur si grand et à l'empêcher d'avoir de tels défauts qu'il ne peut pas réellement répondre aux spécifications signalées et performance? La réponse est ancienne, principalement: la redondance, associée à quelques poudres d'ingénierie magique supplémentaires réalisées en collaboration avec le fabricant des puces, TSMC. La puce est construite sur le nœud 16 nm de TSMC - un processus plus raffiné avec des rendements éprouvés, moins cher qu'un processus de 7 nm de pointe et avec une densité surfacique inférieure - cela rendrait encore plus difficile le refroidissement correct de ces 400 000 cœurs, comme vous peut imaginer.

Cerebras a étudié et déployé des améliorations de la connectivité entre réticules, du rendement, de la distribution d'énergie et de l'emballage pour résoudre les problèmes de mise à l'échelle associés à ces puces de si grande taille. de plus, les puces sont construites avec des fonctionnalités redondantes qui devraient garantir que même si certains défauts surviennent dans diverses parties de la puce de silicium, les zones qui ont été conçues comme un `` surprovisionnement '' peuvent réduire le ramassage, le routage et le traitement des données sans sauter un battement. Cerebras dit que tout composant donné (cœurs, SRAM, etc.) de la puce présente 1%, 1,5% de capacité de surprovisionnement supplémentaire qui permet à tout défaut de fabrication d'être juste un ralentisseur négligeable au lieu d'un gaspilleur de silicium. La solution de communication intercœur est l'une des plus avancées jamais vues, avec un réseau de communication à puce et tout matériel, à puce, baptisé Swarm, qui fournit une bande passante agrégée de 100 pétabits par seconde… associée à 18 Go de mémoire SRAM locale, distribuée et ultrarapide comme seul et unique niveau de la hiérarchie de la mémoire - offrant une bande passante mémoire de l'ordre de 9 pétaoctets par seconde.

Les 400 000 cœurs sont conçus sur mesure pour l'accélération de la charge de travail de l'IA. Nommé SLAC pour les noyaux d'algèbre linéaire clairsemés, ceux-ci sont flexibles, programmables et optimisés pour l'algèbre linéaire clairsemée qui sous-tend tous les calculs de réseau de neurones (pensez à ceux-ci comme des tableaux de cœurs programmables de type FPGA). La programmabilité de SLAC garantit que les cœurs peuvent exécuter tous les algorithmes de réseau neuronal dans le domaine de l'apprentissage automatique en constante évolution - il s'agit d'une puce qui peut s'adapter à différentes charges de travail et à la résolution de problèmes et à la formation liés à l'IA - une exigence pour des déploiements coûteux comme le Wafer Scale Engine le fera sûrement pose. La puce entière et son appareil de déploiement devaient être développés en interne. Comme l'explique le fondateur et PDG Andrew Feldman, il n'y avait pas d'emballage, de cartes de circuits imprimés, de connecteurs, de plaques froides, d'outils ou de logiciels pouvant être adaptés à la fabrication et au déploiement du moteur à échelle de tranche. Cela signifie que Cerebras Systems et son équipe de 173 ingénieurs ont dû développer non seulement la puce, mais presque tout le reste nécessaire pour s'assurer qu'elle fonctionne réellement. Le Wafer Scale Engine consomme 15 kilowatts d'énergie pour fonctionner - une quantité prodigieuse d'énergie pour une puce individuelle, bien que relativement comparable à un cluster d'IA de taille moderne. Il s'agit d'un cluster, essentiellement, mais déployé dans une puce solo sans aucun des problèmes de latence et de communication inter-puces qui affligent les clusters.

In an era where companies are looking towards chiplet design and inter-chip communication solutions as ways to tackle the increasing challenges of manufacturing density and decreasing yields, Cerebras' effort proves that there is still a way of developing monolithic chips that place performance above all other considerations. Sources: VentureBeat, TechCrunch