Im Kontext von Sprachmodellen und agentenbasierter KI sind Gedächtnis und Erdung wichtige und aufstrebende Forschungsfelder. Und obwohl sie in einem Satz oft eng nebeneinander stehen und oft miteinander verbunden sind, erfüllen sie in der Praxis unterschiedliche Funktionen. In diesem Artikel möchte ich die Verwirrung um diese beiden Begriffe aufklären und zeigen, welche Rolle das Gedächtnis bei der allgemeinen Erdung eines Modells spielen kann.

Quelle: Dalle3, Beschreibung: Gespaltene Teile des Gehirns stellen Erinnerung und Erdung im Stil eines freundlichen Cartoons dar

In meinem letzten Artikel haben wir über die Wichtige Rolle des Gedächtnisses in der agentenbasierten KI. Das Gedächtnis in Sprachmodellen bezieht sich auf die Fähigkeit von KI-Systemen, relevante Informationen zu behalten und abzurufen, was zu ihrer Fähigkeit beiträgt, logisch zu denken und kontinuierlich aus ihren Erfahrungen zu lernen. Das Gedächtnis kann in vier Kategorien eingeteilt werden: Kurzzeitgedächtnis, Langzeitgedächtnis, Langzeitgedächtnis und Arbeitsgedächtnis.

Das klingt kompliziert, aber lassen Sie es uns einfach aufschlüsseln:

Kurzzeitgedächtnis (KZG):

Das KTM speichert Informationen für einen sehr kurzen Zeitraum, der Sekunden bis Minuten betragen kann. Wenn Sie einem Sprachmodell eine Frage stellen, muss es Ihre Nachrichten lange genug speichern, um eine Antwort auf Ihre Frage zu generieren. Genau wie Menschen haben Sprachmodelle Schwierigkeiten, sich zu viele Dinge gleichzeitig zu merken.

Millers Gesetzbesagt, dass „das Kurzzeitgedächtnis ein Bestandteil des Gedächtnisses ist, der eine kleine Menge an Informationen in einem aktiven, leicht verfügbaren Zustand für einen kurzen Zeitraum, typischerweise einige Sekunden bis eine Minute, speichert. Die Dauer des Kurzzeitgedächtnisses scheint zwischen 15 und 30 Sekunden zu liegen, und die Kapazität des Kurzzeitgedächtnisses ist begrenzt und wird oft auf etwa 7±2 Elemente geschätzt.“

Wenn Sie additionally ein Sprachmodell fragen: „Zu welchem ​​Style gehört das Buch, das ich in meiner vorherigen Nachricht erwähnt habe?“, muss es sein Kurzzeitgedächtnis nutzen, um auf aktuelle Nachrichten zu verweisen und eine relevante Antwort zu generieren.

Implementierung:

Der Kontext wird in externen Systemen gespeichert, beispielsweise in Sitzungsvariablen oder Datenbanken, die einen Teil des Konversationsverlaufs enthalten. Jede neue Benutzereingabe und Assistentenantwort wird an den vorhandenen Kontext angehängt, um einen Konversationsverlauf zu erstellen. Während der Inferenz wird der Kontext zusammen mit der neuen Abfrage des Benutzers an das Sprachmodell gesendet, um eine Antwort zu generieren, die die gesamte Konversation berücksichtigt. Dies Forschungsbericht bietet einen tieferen Einblick in die Mechanismen, die das Kurzzeitgedächtnis ermöglichen.

Kurz- und Langzeitgedächtnis (SLTM):

SLTM speichert Informationen für einen moderaten Zeitraum, der von Minuten bis Stunden reichen kann. Beispielsweise können Sie innerhalb derselben Sitzung dort weitermachen, wo Sie in einem Gespräch aufgehört haben, ohne den Kontext wiederholen zu müssen, da er als SLTM gespeichert wurde. Dieser Prozess ist auch ein externer Prozess und kein Teil des Sprachmodells selbst.

Implementierung:

Sitzungen können mithilfe von Kennungen verwaltet werden, die Benutzerinteraktionen im Laufe der Zeit verknüpfen. Kontextdaten werden so gespeichert, dass sie über Benutzerinteraktionen hinweg innerhalb eines definierten Zeitraums bestehen bleiben, z. B. in einer Datenbank. Wenn ein Benutzer die Konversation fortsetzt, kann das System den Konversationsverlauf aus vorherigen Sitzungen abrufen und ihn während der Inferenz an das Sprachmodell weitergeben. Ähnlich wie beim Kurzzeitgedächtnis wird jede neue Benutzereingabe und jede Assistentenantwort an den vorhandenen Kontext angehängt, um den Konversationsverlauf aktuell zu halten.

Langzeitgedächtnis (LTM):

LTM speichert Informationen für einen vom Administrator festgelegten Zeitraum, der unbegrenzt sein kann. Wenn wir beispielsweise einen KI-Tutor entwickeln würden, wäre es für das Sprachmodell wichtig zu verstehen, in welchen Fächern der Schüler gute Leistungen erbringt, wo er noch Schwierigkeiten hat, welche Lernstile für ihn am besten geeignet sind und vieles mehr. Auf diese Weise kann das Modell relevante Informationen abrufen, um seine zukünftigen Unterrichtspläne zu erstellen. Eichhörnchen-KI ist ein Beispiel für eine Plattform, die das Langzeitgedächtnis nutzt, um „personalisierte Lernpfade zu erstellen, gezielt zu unterrichten und bei Bedarf emotionale Interventionen bereitzustellen“.

Implementierung:

Informationen können in strukturierten Datenbanken, Wissensgraphen oder Dokumentspeichern gespeichert werden, die bei Bedarf abgefragt werden. Relevante Informationen werden basierend auf der aktuellen Interaktion und dem bisherigen Verlauf des Benutzers abgerufen. Dies bietet Kontext für das Sprachmodell, das mit der Antwort des Benutzers oder der Systemaufforderung zurückgegeben wird.

Arbeitsspeicher:

Der Arbeitsspeicher ist eine Komponente des Sprachmodells selbst (im Gegensatz zu den anderen Speichertypen, die externe Prozesse sind). Er ermöglicht es dem Sprachmodell, Informationen zu speichern, zu bearbeiten und zu verfeinern – und verbessert so die Denkfähigkeit des Modells. Dies ist wichtig, da sich das Verständnis der Aufgabe und die Schritte, die es zur Ausführung unternehmen muss, während das Modell die Anfrage des Benutzers verarbeitet, ändern kann. Sie können sich den Arbeitsspeicher als Notizblock des Modells für seine Gedanken vorstellen. Wenn beispielsweise ein mehrstufiges mathematisches Downside wie (5 + 3) * 2 vorliegt, muss das Sprachmodell in der Lage sein, die (5+3) in den Klammern zu berechnen und diese Informationen zu speichern, bevor die Summe der beiden Zahlen mit 2 multipliziert wird. Wenn Sie sich tiefer mit diesem Thema befassen möchten, finden Sie die Papier „TransformerFAM: Suggestions consideration is working reminiscence“ bietet einen neuen Ansatz zur Erweiterung des Arbeitsgedächtnisses und ermöglicht es einem Sprachmodell, Eingaben/Kontextfenster unbegrenzter Länge zu verarbeiten.

Implementierung:

Mechanismen wie Aufmerksamkeitsebenen in Transformatoren oder versteckte Zustände in rekurrierenden neuronalen Netzwerken (RNNs) sind für die Aufrechterhaltung von Zwischenberechnungen verantwortlich und bieten die Möglichkeit, Zwischenergebnisse innerhalb derselben Inferenzsitzung zu manipulieren. Während das Modell Eingaben verarbeitet, aktualisiert es seinen internen Zustand, was stärkere Denkfähigkeiten ermöglicht.

Alle vier Speichertypen sind wichtige Komponenten für die Erstellung eines KI-Methods, das Informationen über verschiedene Zeiträume und Kontexte hinweg effektiv verwalten und nutzen kann.

Tabelle der Speichertypen in KI-Systemen, Quelle: Sandi Besen

Die Antworten eines Sprachmodells sollten im Kontext des Gesprächs immer Sinn ergeben – sie sollten nicht nur aus einer Ansammlung von Tatsachenbehauptungen bestehen.. Grounding misst die Fähigkeit eines Modells, eine Ausgabe zu produzieren, die kontextbezogen related und sinnvoll ist. Der Prozess des Grounding eines Sprachmodells kann eine Kombination aus Sprachmodelltraining, Feinabstimmung und externen Prozessen (einschließlich Gedächtnis!) sein.

Coaching und Feinabstimmung des Sprachmodells

Die Daten, mit denen das Modell anfangs trainiert wird, machen einen wesentlichen Unterschied darin, wie fundiert das Modell ist. Das Coaching eines Modells mit einem großen Korpus unterschiedlicher Daten ermöglicht es ihm, Sprachmuster, Grammatik und Semantik zu lernen, um das nächste relevante Wort vorherzusagen. Das vorab trainierte Modell wird dann anhand domänenspezifischer Daten feinabgestimmt, was ihm hilft, relevantere und genauere Ergebnisse für bestimmte Anwendungen zu generieren, die tieferes domänenspezifisches Wissen erfordern. Dies ist besonders wichtig, wenn das Modell bei bestimmten Texten, mit denen es während seines anfänglichen Trainings möglicherweise nicht konfrontiert wurde, gute Ergebnisse erzielen soll. Obwohl unsere Erwartungen an die Fähigkeiten eines Sprachmodells hoch sind, können wir nicht erwarten, dass es bei etwas, das es noch nie zuvor gesehen hat, gute Ergebnisse erzielt. Genauso wie wir von einem Schüler nicht erwarten würden, dass er bei einer Prüfung intestine abschneidet, wenn er den Stoff nicht gelernt hat.

Externer Kontext

Wenn Sie das Modell mit kontextspezifischen Echtzeitinformationen oder aktuellen Informationen versorgen, bleibt es auch auf dem Boden der Tatsachen. Dafür gibt es viele Methoden, beispielsweise die Integration mit externen Wissensdatenbanken, APIs und Echtzeitdaten. Diese Methode wird auch als Retrieval Augmented Era (RAG) bezeichnet.

Speichersysteme

Gedächtnissysteme in der KI spielen eine entscheidende Rolle dabei, sicherzustellen, dass das System auf der Grundlage seiner zuvor ausgeführten Aktionen, gewonnenen Erkenntnisse, seiner Leistung im Laufe der Zeit und seiner Erfahrungen mit Benutzern und anderen Systemen geerdet bleibt. Die vier zuvor im Artikel beschriebenen Gedächtnistypen spielen eine entscheidende Rolle dabei, die Fähigkeit eines Sprachmodells zu erden, kontextbewusst zu bleiben und relevante Ergebnisse zu liefern. Gedächtnissysteme arbeiten Hand in Hand mit Erdungstechniken wie Coaching, Feinabstimmung und externer Kontextintegration, um die Gesamtleistung und Relevanz des Modells zu verbessern.

Gedächtnis und Erdung sind miteinander verbundene Elemente, die die Leistung und Zuverlässigkeit von KI-Systemen verbessern. Während das Gedächtnis es der KI ermöglicht, Informationen über verschiedene Zeiträume hinweg zu behalten und zu verarbeiten, stellt die Erdung sicher, dass die Ausgaben der KI kontextbezogen related und aussagekräftig sind. Durch die Integration von Gedächtnissystemen und Erdungstechniken können KI-Systeme ein höheres Maß an Verständnis und Effektivität bei ihren Interaktionen und Aufgaben erreichen.

Von admin

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert