Google startet ‚Ironwood‘ 7. Gen TPU für Inferenz

Google hat heute seine Tensor-Verarbeitungseinheit der siebten Technology „Ironwood“ eingeführt, die das Unternehmen sagte, es sei ein leistungsstärkbares und skalierbares benutzerdefiniertes KI-Beschleuniger und das erste speziell für Inferenz entwickelt.

Ironwood Scales bis zu 9.216 Flüssiggekühlte Chips, die über die Community-Inter-Chip-Interconnect (ICI) verknüpft sind und quick 10 MW überspannen. Es ist eine neue Komponenten von Google Cloud AI Hypercomputer Architektur, so entwickelt, dass {Hardware} und Software program für KI -Workloads zusammen optimiert werden, so das Unternehmen. Mit Ironwood können Entwickler Google nutzen Wege Software program -Stapel, um Zehntausende von Ironwood -TPUs zu nutzen.

Ironwood repräsentiert eine Verschiebung von reaktionsschnellen KI-Modellen, die Laut Google die proaktive Generierung von Erkenntnissen und Interpretationen für die Interpretation von Menschen zur Interpretation von Menschen zur Verfügung stellen.

„Dies nennen wir das“ Zeitalter der Inferenz „, in dem AI -Agenten Daten proaktiv abrufen und Daten generieren, um gemeinsam Einblicke und Antworten zu liefern, nicht nur Daten“, sagten sie.

Ironwood wurde entwickelt, um die Anforderungen an die Ungesetzungs- und Kommunikationsanforderungen von „Denkmodellen“ zu bewältigen, die große Sprachmodelle, Mischung aus Experten (MOEs) und fortschrittliche Argumentationsaufgaben umfassen, die eine large parallele Verarbeitung und einen effizienten Speicherzugriff erfordern. Google sagte, Ironwood sei so konzipiert, dass die Datenbewegung und die Latenz auf Chip minimiert werden und gleichzeitig large Tensor -Manipulationen durchgeführt werden.

„An der Grenze gehen die Berechnungsanforderungen von Denkmodellen weit über die Kapazität eines einzelnen Chips hinaus“, sagten sie. „Wir haben Ironwood TPUs mit einem ICI-Netzwerk mit niedriger Latenz und hoher Bandbreite entwickelt, um die koordinierte, synchrone Kommunikation auf der vollständigen TPU-POD-Skala zu unterstützen.“

Ironwood gibt es in zwei Größen, die auf KI -Workload -Anforderungen basieren: eine 256 -Chip -Konfiguration und eine 9.216 -Chip -Konfiguration.

Bei der Skalierung von 9.216 Chips professional POD für insgesamt 42,5 Exaflops unterstützt Ironwood mehr als 24 -fache die Berechnung der Welt der Welt. 1 Supercomputer auf der Top500 -Liste – El Capitan, mit 1,7 Exaflops professional Pod, sagte Google. Jeder Ironwood -Chip hat einen Spitzenberechnung von 4.614 Tflops. „Dies stellt einen monumentalen Sprung in der KI -Fähigkeit dar. Die Speicher und die Netzwerkarchitektur von Ironwood stellt sicher, dass die richtigen Daten immer verfügbar sind, um die Spitzenleistung in dieser massiven Skala zu unterstützen“, sagte sie.
Ironwood bietet auch Sparsecoreein spezialisierter Beschleuniger zur Verarbeitung von ultra-großen Einbettungen, die in fortgeschrittenen Rating- und Empfehlungs-Workloads üblich sind. Die erweiterte Unterstützung von Sparsecore in Ironwood ermöglicht es, eine breitere Palette von Arbeitsbelastungen zu beschleunigen, einschließlich des Übergangs der traditionellen KI -Domäne auf finanzielle und wissenschaftliche Bereiche.
Pfade, Googles ML Runtime entwickelt Ermöglicht von Google DeepMind verteilte Laptop über mehrere TPU -Chips hinweg. Die Wege auf Google ist so konzipiert, dass sie sich über einen einzelnen Eisenholz -Pod hinausgehen und es ermöglicht, Hunderttausende von Eisenwood -Chips für die KI -Berechnung zusammenzufassen.

Zu den Funktionen gehören:

Ironwood Perf/Watt ist 2x im Vergleich zu Trillium, unserer TPU der sechsten Technology Letztes Jahr angekündigt. In einer Zeit, in der die verfügbare Leistung eine der Einschränkungen für die Bereitstellung von KI -Funktionen darstellt, liefern wir für Kunden -Workloads deutlich mehr Kapazität professional Watt. Unsere fortschrittlichen Lösungen für die Flüssigkeitskühlung und das optimierte Chip -Design können bis zu einer doppelten Leistung der Customary -Luftkühlung selbst unter kontinuierlichen, schweren KI -Arbeitsbelastungen zuverlässig aufrechterhalten. Tatsächlich ist Ironwood quick 30x effizienter als die erste Cloud -TPU des Unternehmens von 2018.
Ironwood bietet 192 GB professional Chip, 6x die von Trillium, die zur Ermöglichung der Verarbeitung größerer Modelle und Datensätze, zur Reduzierung von Datenübertragungen und zur Verbesserung der Leistung entwickelt wurde.
Verbesserte HBM -Bandbreite und erreicht 7,2 Tbit / s professional Chip, 4,5x Trilliums. Dies gewährleistet einen schnellen Datenzugriff, der für speicherintensive Workloads von entscheidender Bedeutung ist, die in der modernen KI gemeinsam sind.
Die ICI-Bandbreite (Inter-Chip-Interconnect) wurde auf 1,2 TBPS-bidirektional, 1,5x Trilliums erhöht, wodurch eine schnellere Kommunikation zwischen Chips ermöglicht wird, wodurch ein effizientes verteiltes Coaching und die Inferenz in Maßstab erleichtert werden.

Google startet ‚Ironwood‘ 7. Gen TPU für Inferenz

Von admin

Schreibe einen Kommentar Antworten abbrechen

Versäumt

Umfragestatistik: Spielzeugbeispiel für Energieausgleichsgewichte

Spekulative Dekodierung für 400 % schnellere LLMs

Wie unerfahrene Programmierer KI-Programme für militärische Anwendungen entwickeln können | MIT-Nachrichten

So bereinigen Sie unordentliche CSV-Dateien mit Python: Ein Leitfaden für Anfänger

About

Categories

Tags

Recent Post

Umfragestatistik: Spielzeugbeispiel für Energieausgleichsgewichte

Spekulative Dekodierung für 400 % schnellere LLMs

Google startet ‚Ironwood‘ 7. Gen TPU für Inferenz

Von admin

Ähnlicher Beitrag

Schreibe einen Kommentar Antworten abbrechen

Versäumt