Das Coaching eines großen Modells der künstlichen Intelligenz ist teuer, nicht nur in Geld, sondern auch in Bezug auf Zeit, Energie und Rechenressourcen. Um ein kleineres, schnelleres Modell zu erhalten, muss man traditionell entweder zuerst ein riesiges Modell trainieren und es dann verkleinern, oder man muss ein kleines Modell von Grund auf trainieren und eine schwächere Leistung in Kauf nehmen.

Forscher des Laptop Science and Synthetic Intelligence Laboratory (CSAIL) des MIT, des Max-Planck-Instituts für Intelligente Systeme, des European Laboratory for Studying and Clever Techniques, der ETH und von Liquid AI haben nun eine neue Methode entwickelt, die diesen Kompromiss vollständig umgeht und Modelle während des Trainings und nicht danach komprimiert.

Die Technik, genannt CompreSSMzielt auf eine Familie von KI-Architekturen ab, die als Zustandsraummodelle bekannt sind und Anwendungen von der Sprachverarbeitung über die Audioerzeugung bis hin zur Robotik unterstützen. Indem sie mathematische Werkzeuge aus der Kontrolltheorie übernehmen, können die Forscher identifizieren, welche Teile eines Modells ihr Gewicht ziehen und welche totes Gewicht haben, bevor sie die unnötigen Komponenten zu Beginn des Trainingsprozesses chirurgisch entfernen.

„Es handelt sich im Wesentlichen um eine Technik, um Modelle beim Coaching kleiner und schneller wachsen zu lassen“, sagt Makram Chahine, Doktorand in Elektrotechnik und Informatik, CSAIL-Companion und Hauptautor des Artikels. „Während des Lernens werden sie auch Teile los, die für ihre Entwicklung nicht nützlich sind.“

Die wichtigste Erkenntnis ist, dass sich die relative Bedeutung verschiedener Komponenten innerhalb dieser Modelle überraschend früh während des Trainings stabilisiert. Mithilfe einer mathematischen Größe namens Hankel-Singulärwerte, die messen, wie viel jeder interne Zustand zum Gesamtverhalten des Modells beiträgt, zeigte das Staff, dass es nach nur etwa 10 Prozent des Trainingsprozesses zuverlässig einordnen kann, welche Dimensionen wichtig sind und welche nicht. Sobald diese Rangfolge erstellt ist, können die weniger wichtigen Komponenten getrost verworfen werden und die restlichen 90 Prozent des Trainings laufen mit der Geschwindigkeit eines viel kleineren Modells ab.

„Das Spannende an dieser Arbeit ist, dass sie die Komprimierung von einem nachträglichen Einfall in einen Teil des Lernprozesses selbst verwandelt“, sagt die leitende Autorin Daniela Rus, MIT-Professorin und Direktorin von CSAIL. „Anstatt ein großes Modell zu trainieren und dann herauszufinden, wie man es kleiner macht, lässt CompreSSM das Modell beim Lernen seine eigene effiziente Struktur entdecken. Das ist eine grundlegend andere Artwork, über den Aufbau von KI-Systemen nachzudenken.“

Die Ergebnisse sind frappierend. Bei Bildklassifizierungs-Benchmarks behielten komprimierte Modelle nahezu die gleiche Genauigkeit wie ihre Gegenstücke in voller Größe bei, während sie bis zu 1,5-mal schneller trainierten. Ein komprimiertes Modell, das auf etwa ein Viertel seiner ursprünglichen Zustandsdimension reduziert wurde, erreichte beim CIFAR-10-Benchmark eine Genauigkeit von 85,7 Prozent, verglichen mit nur 81,8 Prozent für ein Modell, das von Grund auf auf diese kleinere Größe trainiert wurde. Auf Mamba, einer der am weitesten verbreiteten State-Area-Architekturen, erreichte die Methode eine etwa vierfache Trainingsgeschwindigkeit, indem sie ein 128-dimensionales Modell auf etwa 12 Dimensionen komprimierte und gleichzeitig eine konkurrenzfähige Leistung beibehielt.

„Man erhält die Leistung des größeren Modells, weil man den Großteil der komplexen Dynamik während der Aufwärmphase erfasst und dann nur die nützlichsten Zustände behält“, sagt Chahine. „Das Modell ist immer noch in der Lage, eine höhere Leistung zu erbringen als das Coaching eines kleinen Modells von Anfang an.“

Was CompreSSM von bestehenden Ansätzen unterscheidet, ist seine theoretische Grundlage. Herkömmliche Pruning-Methoden trainieren ein vollständiges Modell und entfernen anschließend die Parameter, sodass Sie immer noch die vollen Rechenkosten für das Coaching des großen Modells zahlen. Die Wissensdestillation, eine weitere beliebte Technik, erfordert das vollständige Trainieren eines großen „Lehrer“-Modells und das anschließende Coaching eines zweiten, kleineren „Schüler“-Modells darauf, was den Trainingsaufwand im Wesentlichen verdoppelt. CompreSSM vermeidet diese beiden Kosten, indem es fundierte Komprimierungsentscheidungen während des Streams trifft.

Das Staff verglich CompreSSM direkt mit beiden Alternativen. Im Vergleich zur Hankel-Kernnorm-Regularisierung, einer kürzlich vorgeschlagenen Spektraltechnik zur Förderung kompakter Zustandsraummodelle, struggle CompreSSM mehr als 40-mal schneller und erreichte gleichzeitig eine höhere Genauigkeit. Der Regularisierungsansatz verlangsamte das Coaching um etwa das 16-fache, da bei jedem einzelnen Gradientenschritt teure Eigenwertberechnungen erforderlich waren, und selbst dann zeigten die resultierenden Modelle eine unterdurchschnittliche Leistung. Gegenüber der Wissensdestillation auf CIFAR-10 hatte CompressSM einen klaren Vorteil für stark komprimierte Modelle: Bei kleineren Zustandsdimensionen kam es bei destillierten Modellen zu deutlichen Genauigkeitseinbußen, während mit CompreSSM komprimierte Modelle nahezu die volle Leistung beibehielten. Und da die Destillation bei jedem Trainingsschritt einen Vorwärtsdurchlauf sowohl des Lehrers als auch des Schülers erfordert, trainierten selbst die kleineren Schülermodelle langsamer als die Basislinie in voller Größe.

Die Forscher bewiesen mathematisch, dass sich die Bedeutung einzelner Modellzustände während des Trainings dank der Anwendung des Weyl-Theorems reibungslos ändert, und zeigten empirisch, dass die relative Rangfolge dieser Zustände stabil bleibt. Zusammengenommen geben diese Erkenntnisse den Praktikern die Gewissheit, dass Dimensionen, die zu Beginn als vernachlässigbar erkannt wurden, später nicht plötzlich kritisch werden.

Die Methode beinhaltet auch ein pragmatisches Sicherheitsnetz. Wenn ein Komprimierungsschritt zu einem unerwarteten Leistungsabfall führt, können Praktiker zu einem zuvor gespeicherten Prüfpunkt zurückkehren. „Es gibt den Menschen die Kontrolle darüber, wie viel sie bereit sind, für die Leistung zu zahlen, anstatt einen weniger intuitiven Energieschwellenwert definieren zu müssen“, erklärt Chahine.

Es gibt einige praktische Grenzen der Technik. CompreSSM funktioniert am besten bei Modellen, die eine starke Korrelation zwischen der internen Zustandsdimension und der Gesamtleistung aufweisen, eine Eigenschaft, die je nach Aufgabe und Architektur unterschiedlich ist. Die Methode ist besonders effektiv bei Multi-Enter-Multi-Output-Modellen (MIMO), bei denen die Beziehung zwischen Zustandsgröße und Expressivität am stärksten ist. Bei Architekturen professional Kanal, mit einem Eingang und einem Ausgang sind die Gewinne bescheidener, da diese Modelle von vornherein weniger empfindlich auf Zustandsdimensionsänderungen reagieren.

Die Theorie lässt sich am besten auf lineare zeitinvariante Systeme anwenden, obwohl das Staff Erweiterungen für die immer beliebter werdenden eingabeabhängigen, zeitvariablen Architekturen entwickelt hat. Und da sich die Familie der Zustandsraummodelle auf Architekturen wie lineare Aufmerksamkeit erstreckt, ein wachsendes Interesse als Different zu herkömmlichen Transformatoren, ist der potenzielle Anwendungsbereich breit.

Chahine und seine Mitarbeiter betrachten die Arbeit als Sprungbrett. Das Staff hat bereits eine Erweiterung auf lineare zeitvariable Systeme wie Mamba demonstriert. Zu den künftigen Zielen gehört die Weiterentwicklung von CompreSSM in Matrix-wertige dynamische Systeme, die in linearen Aufmerksamkeitsmechanismen verwendet werden, was die Technik näher an die Transformatorarchitekturen bringen würde, die den meisten der größten KI-Systeme von heute zugrunde liegen.

„Dies musste der erste Schritt sein, denn hier ist die Theorie intestine und der Ansatz kann prinzipiell bleiben“, sagt Chahine. „Es ist das Sprungbrett, um es dann auf andere Architekturen auszuweiten, die heute in der Industrie eingesetzt werden.“

„Die Arbeit von Chahine und seinen Kollegen bietet eine faszinierende, theoretisch fundierte Perspektive auf die Komprimierung moderner Zustandsraummodelle (SSMs)“, sagt Antonio Orvieto, Hauptforscher des ELLIS-Instituts Tübingen und unabhängiger Gruppenleiter am MPI für Intelligente Systeme, der nicht an der Forschung beteiligt struggle. „Die Methode liefert Beweise dafür, dass die Zustandsdimension dieser Modelle während des Trainings effektiv reduziert werden kann und dass eine kontrolltheoretische Perspektive dieses Verfahren erfolgreich leiten kann. Die Arbeit eröffnet neue Wege für zukünftige Forschung, und der vorgeschlagene Algorithmus hat das Potenzial, ein Standardansatz beim Vortraining großer SSM-basierter Modelle zu werden.“

Die Arbeit, die als angenommen wurde Konferenzpapier auf der Worldwide Convention on Studying Representations 2026, wird später in diesem Monat vorgestellt. Es wurde teilweise vom Max-Planck-ETH-Zentrum für Lernsysteme, der Hector Basis, Boeing und dem US Workplace of Naval Analysis unterstützt.

Von admin

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert