« La conception des supercalculateurs actuels n'est pas très tolérante aux pannes, et ils doivent vraiment déployer beaucoup d'efforts pour gérer correctement les pannes », a déclaré M. Mukherjee.
Enfabrica apporte une tolérance aux pannes à la conception des réseaux. Plutôt que d'avoir un chemin point à point, il existe plusieurs chemins d'un point à un autre, ce qui permet de répartir la charge. En cas de panne, le système redistribue la charge sur un nombre réduit de liaisons.
« Si vous regardez les centres de données d'aujourd'hui, ils sont construits autour de ce modèle selon lequel un système à deux sockets constitue votre ensemble de travail. Si les choses rentrent dans ce serveur à deux sockets, la vie est belle. Dès que c'est en dehors (de ces limites), ce n'est pas aussi efficace », a déclaré M. Mukherjee.
« Nous avons finalement conclu que l’architecture elle-même devait changer et que la manière de résoudre ce problème devait être abordée », a déclaré M. Mukherjee. « Nous avons dit qu’il fallait que ce soit une entreprise spécialisée dans le silicium. Il fallait que ce soit quelque chose qui se construise autour de cette idée de ce à quoi le système moderne doit ressembler et qui permette cela de manière rapide et complète. »
ACF-S fournit une commutation et un pontage multi-térabits entre des ressources de calcul et de mémoire hétérogènes dans une seule matrice de silicium sans modifier les interfaces physiques, les protocoles ou les couches logicielles au-dessus des pilotes de périphériques. Il réduit le nombre de périphériques, les sauts de latence d'E/S et la consommation d'énergie des périphériques dans les clusters d'IA actuels consommés par les commutateurs réseau top-of-rack, les cartes réseau RDMA-over-Ethernet, les HCA Infiniband, les commutateurs PCIe/CXL et la DRAM connectée au processeur.
Le pontage de mémoire CXL lui permet de fournir une mise à l'échelle de la mémoire sans tête à n'importe quel accélérateur, permettant à un seul rack GPU d'avoir un accès direct, à faible latence et sans conflit à la DRAM DDR5 CXL.mem locale avec une capacité de mémoire plus de 50 fois supérieure à celle de la mémoire à bande passante élevée native du GPU (HBM) utilisée sur les GPU.



GIPHY App Key not set. Please check settings