Die Koordination komplizierter interaktiver Systeme, unabhängig davon, ob es sich um die unterschiedlichen Transportmittel in einer Stadt oder die verschiedenen Komponenten handelt, die zusammenarbeiten müssen, um einen effektiven und effizienten Roboter zu erstellen, ist ein immer wichtigeres Thema für Softwaredesigner. Jetzt haben Forscher am MIT eine völlig neue Möglichkeit entwickelt, sich diesen komplexen Problemen zu nähern, und verwenden einfache Diagramme als Werkzeug, um bessere Ansätze für die Softwareoptimierung in tiefen Lernmodellen aufzudecken.
Sie sagen, dass die neue Methode so einfach ist, diese komplexen Aufgaben zu adressieren, dass sie auf eine Zeichnung reduziert werden kann, die auf die Rückseite einer Napkin passt.
Der neue Ansatz wird in der Zeitschrift beschrieben Transaktionen der Forschung für maschinelles Lernenin einem Papier von inkomierenden Doktoranden Vincent Abbott und Professor Gioele Zardini vom MIT -Labor für Informations- und Entscheidungssysteme (LIDS).
„Wir haben eine neue Sprache entworfen, um über diese neuen Systeme zu sprechen“, sagt Zardini. Diese neue Diagramm-basierte „Sprache“ basiert stark auf etwas, das als Kategoriestheorie bezeichnet wird, erklärt er.
Dies alles hat mit der Gestaltung der zugrunde liegenden Architektur von Computeralgorithmen zu tun – die Programme, die tatsächlich die verschiedenen optimierten Systeme erfassen und kontrollieren. „Die Komponenten sind unterschiedliche Teile eines Algorithmus, und sie müssen miteinander sprechen, Informationen austauschen, aber auch den Energieverbrauch, den Speicherverbrauch usw. berücksichtigen.“ Solche Optimierungen sind notorisch schwierig, da jede Änderung in einem Teil des Programs wiederum Änderungen in anderen Teilen verursachen kann, was andere Teile weiter beeinflussen kann und so weiter.
Die Forscher beschlossen, sich auf die jeweilige Klasse von tiefgreifenden Algorithmen zu konzentrieren, die derzeit ein heißes Thema der Forschung sind. Deep Studying ist die Grundlage für die großen Modelle für künstliche Intelligenz, einschließlich großer Sprachmodelle wie Chatgpt- und Bild-Technology-Modelle wie Midjourney. Diese Modelle manipulieren Daten durch eine „tiefe“ Reihe von Matrix -Multiplikationen, die von anderen Operationen durchsetzt sind. Die Zahlen in Matrizen sind Parameter und werden während langer Trainingsläufe aktualisiert, sodass komplexe Muster gefunden werden können. Modelle bestehen aus Milliarden von Parametern, die die Berechnung teuer machen und damit die Nutzung und Optimierung von Ressourcen von unschätzbarem Wert verbessert.
Diagramme können Particulars der parallelisierten Operationen darstellen, aus denen tief lernende Modelle bestehen, und die Beziehungen zwischen Algorithmen und der von Unternehmen wie NVIDIA gelieferten {Hardware} für parallelisierte Grafikverarbeitungseinheit (GPU) enthüllen. „Ich bin sehr aufgeregt darüber“, sagt Zardini, weil „wir scheinbar eine Sprache gefunden haben, die sehr intestine beschreibt, dass Deep -Lern -Algorithmen explizit alle wichtigen Dinge darstellen, die die Operatoren, die Sie verwenden“, zum Beispiel den Energieverbrauch, die Speicherzuweisung und jeden anderen Parameter, für den Sie optimieren möchten.
Ein Großteil des Fortschritts im Deep -Lernen ist auf Optimierungen der Ressourceneffizienz zurückzuführen. Das neueste Deepseek -Modell zeigte, dass ein kleines Group mit Topmodellen von OpenAI und anderen großen Labors konkurrieren kann, indem sie sich auf die Ressourceneffizienz und die Beziehung zwischen Software program und {Hardware} konzentrieren. In der Regel sagt er bei der Ableitung dieser Optimierungen: „Die Menschen brauchen viel Versuch und Irrtum, um neue Architekturen zu entdecken.“ Zum Beispiel habe ein weit verbreitetes Optimierungsprogramm namens FlashAntention mehr als vier Jahre gedauert, um sich zu entwickeln, sagt er. Aber mit dem neuen Rahmen, den sie entwickelten, „können wir dieses Downside auf formellere Weise wirklich angehen.“ All dies wird visuell in einer genau definierten grafischen Sprache dargestellt.
Aber die Methoden, die verwendet wurden, um diese Verbesserungen zu finden, sind „sehr begrenzt“, sagt er. „Ich denke, dies zeigt, dass es eine große Lücke gibt, da wir keine formale systematische Methode haben, um einen Algorithmus entweder auf seine optimale Ausführung zu beziehen oder sogar wirklich zu verstehen, wie viele Ressourcen es für den Betrieb benötigen.“ Aber jetzt existiert ein solches System mit der neuen auf Diagramm basierenden Methode, die sie entwickelt haben.
Die Kategorie -Theorie, die diesem Ansatz zugrunde liegt, ist eine Möglichkeit, die verschiedenen Komponenten eines Programs mathematisch zu beschreiben und wie sie in verallgemeinerter, abstrakter Weise interagieren. Verschiedene Perspektiven können verwandt sein. Beispielsweise können mathematische Formeln mit Algorithmen zusammenhängen, die sie implementieren und Ressourcen verwenden, oder Beschreibungen von Systemen können mit robusten „monoidalen Stringdiagrammen“ in Verbindung gebracht werden. Diese Visualisierungen ermöglichen es Ihnen, direkt herumzuspielen und zu experimentieren, wie sich die verschiedenen Teile verbinden und interagieren. Was sie entwickelt haben, sagt er, ist „String -Diagramme auf Steroiden“, die viele weitere grafische Konventionen und viele weitere Eigenschaften enthalten.
„Die Kategorie -Theorie kann als die Mathematik der Abstraktion und Komposition betrachtet werden“, sagt Abbott. „Jedes Kompositionssystem kann unter Verwendung der Kategorie -Theorie beschrieben werden, und die Beziehung zwischen Zusammensetzungssystemen kann dann ebenfalls untersucht werden.“ Algebraische Regeln, die normalerweise mit Funktionen verbunden sind, können auch als Diagramme dargestellt werden, sagt er. „Dann, viele der visuellen Methods, die wir mit Diagrammen machen können, können wir uns auf algebraische Methods und Funktionen beziehen. Es schafft additionally diese Korrespondenz zwischen diesen verschiedenen Systemen.“
Infolgedessen sagt er: „Dies löst ein sehr wichtiges Downside, nämlich dass wir diese tief lernenden Algorithmen haben, aber sie sind nicht klar als mathematische Modelle verstanden.“ Indem es sie jedoch als Diagramme darstellt, wird es möglich, sie formell und systematisch zu nähern, sagt er.
Dies ermöglicht ein klares visuelles Verständnis der Artwork und Weise, wie parallele reale Prozesse durch parallele Verarbeitung in Multicore-Pc-GPUs dargestellt werden können. „Auf diese Weise“, sagt Abbott, „können Diagramme beide eine Funktion darstellen und dann zeigen, wie sie sie optimum auf einer GPU ausführen können.“
Der Algorithmus „Aufmerksamkeit“ wird von tiefen Lernalgorithmen verwendet, die allgemeine kontextbezogene Informationen erfordern, und ist eine Schlüsselphase der serialisierten Blöcke, die Großsprachmodelle wie ChatGPT bilden. Die Entwicklung von Flashattention ist eine Optimierung, die Jahre dauerte, führte jedoch zu einer sechsfachen Verbesserung der Geschwindigkeit der Aufmerksamkeitsalgorithmen.
Zardini wendet ihre Methode auf den etablierten Flashattention-Algorithmus an und sagt: „Hier können wir ihn buchstäblich auf einer Napkin ableiten.“ Dann fügt er hinzu: „OK, vielleicht ist es eine große Napkin.“ Um jedoch nach Hause zu fahren, wie sehr ihr neuer Ansatz den Umgang mit diesen komplexen Algorithmen vereinfachen kann, haben sie ihr formelles Forschungsarbeit über die Arbeit „FlashAdtention auf einer Napkin“ bezeichnet.
Diese Methode, sagt Abbott, „ermöglicht es, dass die Optimierung im Gegensatz zu vorherrschenden Methoden sehr schnell abgeleitet wird.“ Während sie diesen Ansatz anfänglich auf den bereits vorhandenen Flashattention -Algorithmus anwand und so seine Effektivität überprüfte, „hoffen wir, diese Sprache nun zu verwenden, um die Erkennung von Verbesserungen zu automatisieren“, sagt Zardini, der zusätzlich zu einem Hauptuntersucher in Lids in Deckel ist, der Rudge und Nancy Allen Assistor Professor für Zivil- und Umweltingenieurwesen und Affiliate -Fachfaktoren mit dem Institut für Daten, Society und Society, Society, Society, Society, Society und Society, Society und Society.
Der Plan ist, dass sie letztendlich, so sagt er, die Software program so weit entwickeln, dass „der Forscher seinen Code hochladen und mit dem neuen Algorithmus automatisch erkennen, was verbessert werden kann, was optimiert werden kann, und Sie eine optimierte Model des Algorithmus an den Benutzer zurückgeben.“
Zusätzlich zur Automatisierung der Algorithmusoptimierung stellt Zardini fest, dass eine robuste Analyse darüber, wie tiefgreifende Algorithmen mit der Verwendung von {Hardware}-Ressourcen in Verbindung stehen, ein systematisches Co-Design von {Hardware} und Software program ermöglicht. Diese Arbeitslinie integriert sich in Zardinis Fokus auf das kategorische Co-Design, das die Instruments der Kategorie-Theorie verwendet, um verschiedene Komponenten konstruierter Systeme gleichzeitig zu optimieren.
Abbott sagt, dass „dieses ganze Feld optimierter Deep -Studying -Modelle, glaube ich, ziemlich kritisch nicht berücksichtigt ist, und deshalb sind diese Diagramme so aufregend. Sie öffnen die Türen für einen systematischen Ansatz für dieses Downside.“
„Ich bin sehr beeindruckt von der Qualität dieser Forschung. … Der neue Ansatz zur Diagrammung von Algorithmen, die von diesem Papier verwendet werden, könnte ein sehr wichtiger Schritt sein“, sagt Jeremy Howard, Gründer und CEO von Solutions.ai, der nicht mit dieser Arbeit in Verbindung gebracht wurde. „Dieses Papier ist das erste Mal, dass ich eine solche Notation gesehen habe, mit der die Leistung eines tiefgreifenden Algorithmus auf der realen {Hardware} tiefgreifend analysiert wird.
„Dies ist ein wunderschön ausgeführtes Stück theoretischer Forschung, das auch auf eine hohe Zugänglichkeit für nicht initiierte Leser abzielt – ein Merkmal, das in Papieren dieser Artwork selten zu sehen ist“, sagt Petar Velickovic, leitender Forschungswissenschaftler bei Google DeepMind und eine Dozentin an der Cambridge College, die nicht mit dieser Arbeit in Verbindung gebracht wurde. Diese Forscher, sagt er, „sind eindeutig ausgezeichnete Kommunikatoren, und ich kann es kaum erwarten zu sehen, was sie als nächstes einfallen lassen!“
Die neue Diagrammsprache, die on-line veröffentlicht wurde, hat bereits große Aufmerksamkeit und Interesse von Softwareentwicklern auf sich gezogen. Ein Rezensent aus Abbotts früherer Papier, der die Diagramme vorstellte, stellte fest, dass „die vorgeschlagenen Neuralschaltendiagramme aus künstlerischer Sicht hervorragend aussehen (soweit ich das beurteilen kann). „Es ist technische Forschung, aber es ist auch auffällig!“ Zardini sagt.