Maia 200 ist Microsofts neuer hauseigener KI-Beschleuniger, der für Inferenz in Azure-Rechenzentren entwickelt wurde. Es zielt auf die Kosten der Token-Generierung für große Sprachmodelle und andere Schlussfolgerungsarbeitslasten ab, indem es eine enge Präzisionsberechnung, eine dichte On-Chip-Speicherhierarchie und eine Ethernet-basierte Scale-up-Cloth kombiniert.
Warum Microsoft einen speziellen Inferenzchip entwickelt hat?
Coaching und Inferenz belasten {Hardware} auf unterschiedliche Weise. Für die Schulung sind umfangreiche Kommunikations- und Langzeitaufgaben erforderlich. Inference kümmert sich um Token professional Sekunde, Latenz und Token professional Greenback. Microsoft positioniert Maia 200 als sein effizientestes Inferenzsystem mit einer etwa 30 Prozent besseren Leistung professional Greenback als die neueste {Hardware} seiner Flotte.
Maia 200 ist Teil eines heterogenen Azure-Stacks. Es wird mehrere Modelle bedienen, darunter die neuesten GPT 5.2-Modelle von OpenAI, und Workloads in Microsoft Foundry und Microsoft 365 Copilot unterstützen. Das Microsoft Superintelligence-Staff wird den Chip zur Generierung synthetischer Daten und zum verstärkenden Lernen verwenden, um interne Modelle zu verbessern.
Kern-Silizium- und numerische Spezifikationen
Jede Maia 200 Der Chip wird im 3-Nanometer-Prozess von TSMC hergestellt. Der Chip integriert mehr als 140 Milliarden Transistoren.
Die Rechenpipeline basiert auf nativen FP8- und FP4-Tensorkernen. Ein einzelner Chip liefert mehr als 10 PetaFLOPS im FP4 und mehr als 5 PetaFLOPS im FP8, innerhalb einer SoC-TDP-Hülle von 750 W.
Der Speicher ist zwischen gestapeltem HBM und On-Die-SRAM aufgeteilt. Maia 200 bietet 216 GB HBM3e mit etwa 7 TB professional Sekunde Bandbreite und 272 MB On-Die-SRAM. Das SRAM ist in SRAM auf Kachelebene und SRAM auf Clusterebene organisiert und wird vollständig per Software program verwaltet. Compiler und Laufzeiten können Arbeitssätze explizit platzieren, um die Aufmerksamkeit auf sich zu ziehen und GEMM-Kernel in der Nähe der Rechenleistung zu halten.
Kachelbasierte Mikroarchitektur und Speicherhierarchie
Die Mikroarchitektur von Maia 200 ist hierarchisch. Die Basiseinheit ist die Fliese. Eine Kachel ist die kleinste autonome Rechen- und Speichereinheit auf dem Chip. Jede Kachel enthält eine Tile-Tensor-Einheit für Matrixoperationen mit hohem Durchsatz und einen Tile-Vektor-Prozessor als programmierbare SIMD-Engine. Tile SRAM speist beide Einheiten und Tile DMA-Engines verschieben Daten in und aus dem SRAM, ohne die Rechenleistung zu blockieren. Ein Tile Management Processor orchestriert die Abfolge der Tensor- und DMA-Arbeit.
Mehrere Kacheln bilden einen Cluster. Jeder Cluster stellt einen größeren Cluster-SRAM mit mehreren Bänken bereit, der von allen Kacheln in diesem Cluster gemeinsam genutzt wird. DMA-Engines auf Clusterebene verschieben Daten zwischen Cluster-SRAM und den gemeinsam gepackten HBM-Stacks. Ein Cluster-Kern koordiniert die Ausführung mehrerer Kacheln und verwendet Redundanzschemata für Kacheln und SRAM, um die Ausbeute zu verbessern und gleichzeitig das gleiche Programmiermodell beizubehalten.
Diese Hierarchie ermöglicht es dem Software program-Stack, verschiedene Teile des Modells in verschiedenen Ebenen anzuheften. Aufmerksamkeitskerne können beispielsweise Q-, Ok- und V-Tensoren im Kachel-SRAM halten, während kollektive Kommunikationskerne Nutzlasten im Cluster-SRAM bereitstellen und den HBM-Druck reduzieren können. Das Entwurfsziel ist eine anhaltend hohe Auslastung, wenn Modelle an Größe und Sequenzlänge zunehmen.
On-Chip-Datenbewegung und Ethernet-Skalierung der Cloth
Die Schlussfolgerung wird häufig durch die Datenbewegung und nicht durch die Spitzenberechnung begrenzt. Maia 200 verwendet ein benutzerdefiniertes Community on Chip zusammen mit einer Hierarchie von DMA-Engines. Das Community on Chip umfasst Kacheln, Cluster, Speichercontroller und I/O-Einheiten. Es verfügt über separate Ebenen für großen Tensorverkehr und für kleine Steuernachrichten. Durch diese Trennung wird verhindert, dass die Synchronisierung und kleine Ausgaben hinter großen Übertragungen blockiert werden.
Jenseits der Chipgrenze, Maia 200 integriert eine eigene NIC und ein Ethernet-basiertes Scale-up-Netzwerk, das das AI Transport Layer-Protokoll ausführt. Die On-Die-NIC stellt etwa 1,4 TB professional Sekunde in jede Richtung oder 2,8 TB professional Sekunde bidirektionale Bandbreite zur Verfügung und lässt sich auf 6.144 Beschleuniger in einer zweistufigen Domäne skalieren.
In jedem Tablett bilden vier Maia-Beschleuniger ein vollständig verbundenes Quad. Diese vier Geräte verfügen über direkte, nicht geschaltete Verbindungen zueinander. Der größte Teil des Tensor-Parallelverkehrs bleibt innerhalb dieser Gruppe, während nur geringerer Kollektivverkehr zu Switches geleitet wird. Dies verbessert die Latenz und reduziert die Anzahl der Change-Ports für typische Inferenzkollektive.
Azure-Systemintegration und -kühlung
Auf Systemebene folgt Maia 200 den gleichen Rack-, Stromversorgungs- und mechanischen Requirements wie Azure-GPU-Server. Es unterstützt luftgekühlte und flüssigkeitsgekühlte Konfigurationen und verwendet eine Flüssigkeitskühlungs-Wärmetauschereinheit der zweiten Era mit geschlossenem Kreislauf für Racks mit hoher Dichte. Dies ermöglicht gemischte Bereitstellungen von GPUs und Maia-Beschleunigern im gleichen Rechenzentrums-Footprint.
Der Beschleuniger ist in die Azure-Steuerungsebene integriert. Firmware-Administration, Integritätsüberwachung und Telemetrie verwenden dieselben Arbeitsabläufe wie andere Azure-Rechendienste. Dies ermöglicht flottenweite Rollouts und Wartung, ohne die laufenden KI-Workloads zu unterbrechen.
Wichtige Erkenntnisse
Hier sind 5 kurze, technische Erkenntnisse:
- Schlussfolgerung erster Entwurf: Maia 200 ist Microsofts erste Silizium- und Systemplattform, die ausschließlich für KI-Inferenz entwickelt wurde und für die groß angelegte Token-Generierung in modernen Argumentationsmodellen und großen Sprachmodellen optimiert ist.
- Numerische Spezifikationen und Speicherhierarchie: Der Chip wird auf TSMCs 3 nm hergestellt, integriert etwa 140 Milliarden Transistoren und liefert mehr als 10 PFLOPS FP4 und mehr als 5 PFLOPS FP8, mit 216 GB HBM3e bei 7 TB professional Sekunde zusammen mit 272 MB On-Chip-SRAM, aufgeteilt in Kachel-SRAM und Cluster-SRAM und verwaltet in Software program.
- Leistung im Vergleich zu anderen Cloud-Beschleunigern: Microsoft meldet eine etwa 30 Prozent bessere Leistung professional Greenback als die neuesten Azure-Inferenzsysteme und gibt an, dass die FP4-Leistung dreimal so hoch ist wie bei Amazon Trainium der dritten Era und die FP8-Leistung höher ist als bei Google TPU v7 auf Beschleunigerebene.
- Kachelbasierte Architektur und Ethernet-Cloth: Maia 200 organisiert die Rechenleistung in Kacheln und Clustern mit lokalem SRAM, DMA-Engines und einem Community on Chip und stellt eine integrierte Netzwerkkarte mit etwa 1,4 TB professional Sekunde und Richtung Ethernet-Bandbreite zur Verfügung, die auf 6.144 Beschleuniger skaliert werden kann, wobei Absolutely Related Quad-Gruppen als lokale Tensor-Paralleldomäne verwendet werden.
Michal Sutter ist ein Knowledge-Science-Experte mit einem Grasp of Science in Knowledge Science von der Universität Padua. Mit einer soliden Grundlage in statistischer Analyse, maschinellem Lernen und Datentechnik ist Michal hervorragend darin, komplexe Datensätze in umsetzbare Erkenntnisse umzuwandeln.

