Warum brauchen wir in einer Welt, in der die einzige Konstante der Wandel ist, eine Kontinuierliches Lernen Ansatz für KI-Modelle.

Bild vom Autor erstellt in Midjourney

Stellen Sie sich vor, Sie haben einen kleinen Roboter, der in Ihrem Garten herumläuft und Ihre Pflanzen gießt. Zunächst verbringen Sie einige Wochen damit, Daten zu sammeln, um den Roboter zu trainieren und zu testen. Dabei investieren Sie viel Zeit und Ressourcen. Der Roboter lernt, effizient durch den Garten zu navigieren, wenn der Boden mit Gras und nackter Erde bedeckt ist.

Doch im Laufe der Wochen beginnen die Blumen zu blühen und das Aussehen des Gartens verändert sich deutlich. Der Roboter, der mit Daten aus einer anderen Jahreszeit trainiert wurde, kann seine Umgebung nun nicht mehr richtig erkennen und hat Schwierigkeiten, seine Aufgaben zu erfüllen. Um dies zu beheben, müssen Sie dem Modell neue Beispiele des blühenden Gartens hinzufügen.

Ihr erster Gedanke ist, dem Coaching neue Datenbeispiele hinzuzufügen und das Modell von Grund auf neu zu trainieren. Aber das ist teuer und Sie möchten dies nicht jedes Mal tun, wenn sich die Umgebung ändert. Darüber hinaus haben Sie gerade festgestellt, dass Ihnen nicht alle historischen Trainingsdaten zur Verfügung stehen.

Nun überlegen Sie, das Modell mit neuen Stichproben zu optimieren. Dies ist jedoch riskant, da das Modell möglicherweise einige seiner zuvor erlernten Fähigkeiten verliert, was zu katastrophales Vergessen (eine State of affairs, in der das Modell beim Erlernen neuer Informationen zuvor erworbenes Wissen und Fähigkeiten verliert).

..gibt es additionally eine Different? Ja, durch kontinuierliches Lernen!

Natürlich ist der Roboter, der die Pflanzen in einem Garten bewässert, nur ein anschauliches Beispiel für das Downside. Im weiteren Verlauf des Textes werden Sie realistischere Anwendungen sehen.

Adaptiv lernen mit Continuous Studying (CL)

Es ist nicht möglich, alle möglichen Szenarien vorherzusehen und sich darauf vorzubereiten, mit denen ein Modell in Zukunft konfrontiert werden könnte. Daher kann in vielen Fällen ein adaptives Coaching des Modells bei Eintreffen neuer Beispiele eine gute Possibility sein.

In CL wollen wir ein Gleichgewicht finden zwischen Stabilität eines Modells und seiner Plastizität. Stabilität ist die Fähigkeit eines Modells, zuvor erlernte Informationen zu behalten, und Plastizität ist seine Fähigkeit, sich an neue Informationen anzupassen, wenn neue Aufgaben eingeführt werden.

„(…) im Szenario des kontinuierlichen Lernens ist ein Lernmodell erforderlich, um interne Darstellungen schrittweise aufzubauen und dynamisch zu aktualisieren, da sich die Aufgabenverteilung im Laufe seiner Lebensdauer dynamisch ändert..” (2)

Aber wie lassen sich Stabilität und Plastizität kontrollieren?

Forscher haben eine Reihe von Möglichkeiten zum Aufbau adaptiver Modelle identifiziert. In (3) wurden folgende Kategorien festgelegt:

  1. Regularisierungsbasierter Ansatz
  • Bei diesem Ansatz fügen wir einen Regularisierungsterm hinzu, der die Auswirkungen alter und neuer Aufgaben auf die Modellstruktur ausgleichen soll.
  • Zum Beispiel Gewichtsregulierung zielt darauf ab, die Variation der Parameter zu kontrollieren, indem der Verlustfunktion ein Strafterm hinzugefügt wird, der die Änderung des Parameters bestraft, indem berücksichtigt wird, wie viel er zu den vorherigen Aufgaben beigetragen hat.

2. Replay-basierter Ansatz

  • Diese Methodengruppe konzentriert sich auf die Wiederherstellung einiger historischer Daten, damit das Modell frühere Aufgaben weiterhin zuverlässig lösen kann. Eine der Einschränkungen dieses Ansatzes besteht darin, dass wir Zugriff auf historische Daten benötigen, was nicht immer möglich ist.
  • Erleben Sie beispielsweise die Wiedergabewo wir eine Auswahl alter Trainingsdaten aufbewahren und wiedergeben. Beim Trainieren einer neuen Aufgabe werden einige Beispiele aus vorherigen Aufgaben hinzugefügt, um das Modell einer Mischung aus alten und neuen Aufgabentypen auszusetzen und so das katastrophale Vergessen einzuschränken.

3. Optimierungsbasierter Ansatz

  • Hier möchten wir die Optimierungsmethoden manipulieren, um die Leistung für alle Aufgaben aufrechtzuerhalten und gleichzeitig die Auswirkungen des katastrophalen Vergessens zu reduzieren.
  • Beispielsweise Gradientenprojektion ist eine Methode, bei der für neue Aufgaben berechnete Gradienten so projiziert werden, dass vorherige Gradienten nicht beeinflusst werden.

4. Repräsentationsbasierter Ansatz

  • Der Schwerpunkt dieser Methodengruppe liegt auf der Erlangung und Verwendung robuster Merkmalsdarstellungen, um katastrophales Vergessen zu vermeiden.
  • Zum Beispiel selbstüberwachtes Lernenwo ein Modell eine robuste Darstellung der Daten erlernen kann, bevor es für bestimmte Aufgaben trainiert wird. Die Idee besteht darin, qualitativ hochwertige Merkmale zu erlernen, die eine gute Generalisierung für verschiedene Aufgaben widerspiegeln, mit denen ein Modell in Zukunft konfrontiert werden kann.

5. Architekturbasierter Ansatz

  • Die vorherigen Methoden gehen von einem einzelnen Modell mit einem einzelnen Parameterraum aus, es gibt jedoch auch eine Reihe von Techniken in CL, die die Architektur des Modells ausnutzen.
  • Beispielsweise Parameterzuordnungwobei während des Trainings jeder neuen Aufgabe ein dedizierter Unterraum in einem Netzwerk zugewiesen wird, wodurch das Downside der destruktiven Interferenz von Parametern beseitigt wird. Wenn das Netzwerk jedoch nicht festgelegt ist, wächst seine Größe mit der Anzahl neuer Aufgaben.

Und wie ist die Leistung der CL-Modelle zu bewerten?

Die grundlegende Leistungsfähigkeit von CL-Modellen kann aus mehreren Blickwinkeln gemessen werden (3):

  • Gesamtbewertung der Leistung: Durchschnittliche Leistung über alle Aufgaben hinweg
  • Bewertung der Speicherstabilität: Berechnung der Differenz zwischen der maximalen Leistung für eine bestimmte Aufgabe vor und der aktuellen Leistung nach kontinuierlichem Coaching
  • Bewertung der Lernplastizität: Messen des Unterschieds zwischen der gemeinsamen Trainingsleistung (bei Coaching mit allen Daten) und der Leistung bei Coaching mit CL

Warum stellen additionally nicht alle KI-Forscher sofort auf kontinuierliches Lernen um?

Wenn Sie Zugriff auf die historischen Trainingsdaten haben und sich keine Sorgen über den Rechenaufwand machen, erscheint es Ihnen möglicherweise einfacher, das Coaching von Grund auf neu zu beginnen.

Einer der Gründe dafür ist, dass die Interpretierbarkeit dessen, was während des kontinuierlichen Trainings im Modell passiert, immer noch begrenzt ist. Wenn das Coaching von Grund auf dieselben oder bessere Ergebnisse liefert als das kontinuierliche Coaching, dann ziehen die Leute vielleicht den einfacheren Ansatz vor, d. h. das erneute Coaching von Grund auf, anstatt Zeit damit zu verbringen, die Leistungsprobleme von CL-Methoden zu verstehen.

Darüber hinaus konzentriert sich die aktuelle Forschung eher auf die Bewertung von Modellen und Frameworks, die möglicherweise die tatsächlichen Anwendungsfälle des Unternehmens nicht intestine widerspiegeln. Wie in (6) erwähnt, gibt es viele synthetische inkrementelle Benchmarks, die reale Situationen, in denen es eine natürliche Entwicklung von Aufgaben gibt, nicht intestine widerspiegeln.

Und schließlich konzentrieren sich, wie in (4) angemerkt, viele Aufsätze zum Thema CL auf den Speicher- und nicht auf den Rechenaufwand. Tatsächlich ist das Speichern historischer Daten jedoch weitaus kostengünstiger und verbraucht weniger Energie als das erneute Trainieren des Modells.

Wenn der Fokus stärker auf der Einbeziehung von Rechen- und Umweltkosten bei der Neuschulung von Modellen liegen würde, könnten mehr Leute daran interessiert sein, den aktuellen Stand der Technik bei CL-Methoden zu verbessern, da sie messbare Vorteile sehen würden. Wie in (4) erwähnt, kann die Neuschulung von Modellen beispielsweise 10.000 GPU-Tage der Ausbildung für aktuelle Großmodelle.

Warum sollten wir an der Verbesserung von CL-Modellen arbeiten?

Kontinuierliches Lernen soll einen der größten Engpässe aktueller KI-Modelle lösen: die Tatsache, dass sich die Datenverteilung im Laufe der Zeit ändert. Das erneute Lernen ist teuer und erfordert große Rechenmengen, was aus wirtschaftlicher und ökologischer Sicht kein sehr nachhaltiger Ansatz ist. Daher könnten intestine entwickelte CL-Methoden in Zukunft Modelle ermöglichen, die für eine größere Benutzergruppe leichter zugänglich und wiederverwendbar sind.

Wie in (4) festgestellt und zusammengefasst, gibt es eine Liste von Anwendungen, die von Natur aus die intestine entwickelten CL-Methoden erfordern oder von ihnen profitieren könnten:

  1. Modellbearbeitung
  • Selektives Bearbeiten eines fehleranfälligen Teils eines Modells, ohne andere Teile des Modells zu beschädigen. Kontinuierliche Lerntechniken könnten dazu beitragen, Modellfehler bei deutlich geringerem Rechenaufwand kontinuierlich zu korrigieren.

2. Personalisierung und Spezialisierung

  • Allgemeine Modelle müssen manchmal angepasst werden, um sie für bestimmte Benutzer persönlicher zu gestalten. Mit Continuous Studying könnten wir nur einen kleinen Satz von Parametern aktualisieren, ohne dass das Modell katastrophales Vergessen begünstigt.

3. Lernen auf dem Gerät

  • Kleine Geräte verfügen nur über begrenzten Speicher und begrenzte Rechenressourcen. Daher könnten in diesem Bereich Methoden nützlich sein, mit denen das Modell effizient in Echtzeit trainiert werden kann, wenn neue Daten eintreffen, ohne dass man von vorne beginnen muss.

4. Schnelleres Umlernen mit Warmstart

  • Modelle müssen aktualisiert werden, wenn neue Stichproben verfügbar werden oder sich die Verteilung erheblich verschiebt. Mit Continuous Studying kann dieser Prozess effizienter gestaltet werden, indem nur die von neuen Stichproben betroffenen Teile aktualisiert werden, anstatt von Grund auf neu trainiert zu werden.

5. Bestärkendes Lernen

  • Beim bestärkenden Lernen interagieren Agenten mit einer Umgebung, die oft nicht stationär ist. Daher könnten effiziente Methoden und Ansätze des kontinuierlichen Lernens für diesen Anwendungsfall möglicherweise nützlich sein.

Erfahren Sie mehr

Wie Sie sehen, gibt es noch viel Raum für Verbesserungen im Bereich der Methoden des kontinuierlichen Lernens. Wenn Sie interessiert sind, können Sie mit den folgenden Materialien beginnen:

  • Einführungskurs: (Weiterbildungskurs) Vorlesung Nr. 1: Einführung und Motivation von ContinualAI auf YouTube https://youtu.be/z9DDg2CJjeE?si=j57_qLNmpRWcmXtP
  • Beitrag zur Motivation für das kontinuierliche Lernen: Kontinuierliches Lernen: Anwendung und der Weg nach vorn (4)
  • Artikel über die neuesten Techniken im Bereich des kontinuierlichen Lernens: Umfassende Untersuchung zum Thema kontinuierliches Lernen: Theorie, Methode und Anwendung (3)

Wenn Sie Fragen oder Anmerkungen haben, können Sie diese gerne im Kommentarbereich teilen.

Prost!

Bild vom Autor erstellt in Midjourney

(1) Awasthi, A. & Sarawagi, S. (2019). Kontinuierliches Lernen mit neuronalen Netzwerken: Ein Überblick. In Proceedings der gemeinsamen internationalen Konferenz von ACM India zu Datenwissenschaft und Datenmanagement (S. 362–365). Affiliation for Computing Equipment.

(2) Continuous AI Wiki Einführung in kontinuierliches Lernen https://wiki.continualai.org/the-continualai-wiki/introduction-to-continual-learning

(3) Wang, L., Zhang, X., Su, H., & Zhu, J. (2024). Eine umfassende Untersuchung des kontinuierlichen Lernens: Theorie, Methode und Anwendung. IEEE Transactions on Sample Evaluation and Machine Intelligence, 46(8), 5362–5383.

(4) Eli Verwimp, Rahaf Aljundi, Shai Ben-David, Matthias Bethge, Andrea Cossu, Alexander Gepperth, Tyler L. Hayes, Eyke Hüllermeier, Christopher Kanan, Dhireesha Kudithipudi, Christoph H. Lampert, Martin Mundt, Razvan Pascanu, Adrian Popescu , Andreas S. Tolias, Joost van de Weijer, Bing Liu, Vincenzo Lomonaco, Tinne Tuytelaars und Gido M. van de Ven. (2024). Kontinuierliches Lernen: Anwendungen und der Weg in die Zukunft https://arxiv.org/abs/2311.11908

(5) Awasthi, A., & Sarawagi, S. (2019). Kontinuierliches Lernen mit neuronalen Netzwerken: Ein Überblick. In Proceedings der gemeinsamen internationalen Konferenz von ACM India zu Datenwissenschaft und Datenmanagement (S. 362–365). Vereinigung für Rechenmaschinen.

(6) Saurabh Garg, Mehrdad Farajtabar, Hadi Pouransari, Raviteja Vemulapalli, Sachin Mehta, Oncel Tuzel, Vaishaal Shankar und Fartash Faghri. (2024). TiC-CLIP: Kontinuierliches Coaching von CLIP-Modellen.

Von admin

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert