sind jetzt in der Lage, große Eingänge zu bewältigen – ihr Kontextfenster liegt zwischen 200k (Claude) und 2M Token (Gemini 1.5 Professional). Das sind zwischen 280 und 2800 Seiten Textual content! Diese massiven Kontextfenster legen nahe, dass wir uns in den meisten praktischen Szenarien nicht zu viel Sorgen machen müssen, um die LLM -Grenzen hinsichtlich der Eingabe zu erreichen. Unsere neuesten Untersuchungen zeigen jedoch, dass dies nicht der Fall ist. Für viele Probleme mit dem komplexen Kontext ist die LLM wirksam Arbeitsspeicher kann überladen werden mit relativ kleinen Eingängen – weit vorher Wir haben die Kontextfenstergrenzen geschlagen.

Unser Papier führt ein neues theoretisches Berechnungsmodell ein, um zu erklären, warum dies geschieht, und zeigt in Experimenten, dass die Vorhersagen unserer Theorie reale Ergebnisse entsprechen. Unsere Ergebnisse können endlich erklären zuvor gemeldet LLM -Fehlerwie z. B. wie LLMs eine haben Unfähigkeit, Handlungslöcher zu erkennenAnwesend Mühe, lange Geschichten zu verstehenoder Beantworten Sie fälschlicherweise Fragen, wenn Dokumente ähnlich sind.

Im Folgenden stellen wir die Particulars aus, indem wir die folgenden Fragen beantworten:

  1. Was passiert, wenn wir das Arbeitsgedächtnis eines LLM überschreiten?
  2. Tut Mein Aufgabe benötigen viel Arbeitsgedächtnis?
  3. Was kann ich tun, wenn meine Aufgabe viel Arbeitsgedächtnis benötigt?
  4. Warum brauchen bestimmte Aufgaben viel Arbeitsgedächtnis?

Was passiert, wenn wir das Arbeitsgedächtnis eines LLM überschreiten?

Intuitiv gesehen erfordern Aufgaben, bei denen viel Kontext korrekt beantwortet werden muss, auch die LLM, um viele Informationen zu verfolgen. Da die Größe dieses „Arbeitssatzes“ zur korrekten Begründung der Antwort musste, wird es wahrscheinlicher, dass das LLM Fehler macht, da sie nicht in der Lage ist, die relevanten Informationen in seinem begrenzten Arbeitsspeicher zu behalten.

Betrachten Sie das folgende Beispiel. Sagen Sie, wir möchten einen bestimmten Teil des Code eines Menschen debuggen und herausfinden, ob der endgültige Wert der Variablen x7 ist „A“ oder „B“:

x6 = "a"
x4 = "b"
x0 = x6
x2 = x4
x3 = x0
x8 = x2
x9 = x3
x7 = x3

Diese variable Monitoring -Aufgabe erfordert viel Kontext, um eine Antwort zu berechnen, da es nicht zu einer falschen Antwort führen kann. Durch das Ausführen von Experimenten mit einer Reihe von Frontier -Modellen in dieser Aufgabe zeigt sich, dass sie alle auf zufällige Vermutungen zwischen den beiden Antworten zurückzuführen sind, wenn die Anzahl der Variablen wächst:

Die Leistung von LLMs fällt schnell ab, wenn die Anzahl der zu verfolgenden Variablen steigt.

Dieses Experiment zeigt an, dass diese LLMs höchstens n = 5 bis 10 Variablen verfolgen können, bevor sie ihre Arbeitsspeicherkapazität überschreiten. Danach verschlechtert sich die Leistung schnell auf 50–50 zufällige Vermutungen.

Tut Mein Aufgabe benötigen viel Arbeitsgedächtnis?

Jetzt sind Sie wahrscheinlich neugierig, ob Arbeitsgedächtnisgrenzen ein Downside für die Aufgabe sein könnten, die Sie zu lösen versuchen. Das erste, was wir empfehlen, ist zu überprüfen, ob die anstehende Aufgabe den Aufgaben ähnlich ist, die wir theoretisch in unserem Artikel analysieren. Wir rufen Aufgaben an Bapo-hard Wenn sie unter unserem BAPO -Modell viel Arbeitsgedächtnis benötigen (weiter unten mehr). Wir wissen, dass die Aufgaben theoretisch schwer sind:

  • Erreichbarkeit der Grafik: Kann in komplexer Zusammenfassung, Entitätsverfolgung, variabler Verfolgung oder logischem Abzug auftreten
  • Mehrheit: Kann in der Überprüfung der Klassifizierung auftreten, eine Konsensmeinung finden usw.
  • Argumentation über Dreifach

Ebenso können Sie sehen, ob Ihre Aufgabe bapo-einfach ist:

  • Minimal/Most: Geben Sie beispielsweise die negativste oder positivste Überprüfung in einer Liste zurück
  • Index oder Nadel-in-a-haystack: zB, finden Sie heraus, ob ein Thema diskutiert wird

Intuitiv müssen Probleme, bei denen nur kleine Informationen verfolgt werden müssen, um die Frage zu beantworten, niedrige Arbeitsspeicheranforderungen (z. B. Nadel-in-a-Haystack). Wenn die Antwort quick alle Eingangs -Token erfordert und keine kurze Zusammenfassung vorliegt, sind die Anforderungen an das Arbeitsgedächtnis hoch.

Wenn Ihre Aufgabe nicht in der obigen Liste steht, können Sie Ihr Urteilsvermögen verwenden, um festzustellen, ob es eine einfache Lösung gibt, die nicht viel Speicher benötigt, z. B. eine einfache aufmerksamkeitsbasierte Suche, die die LLM ausführen kann, um die Frage zu beantworten, oder eine Möglichkeit, den Kontext zusammenzufassen (ohne die Frage a priori zu wissen), damit Ihre Frage aus der Zusammenfassung beantwortet werden kann. Wenn nicht, erfordert Ihr Downside möglicherweise ein erhebliches Arbeitsgedächtnis. In diesem Fall ist LLMs gefährdet, bei Ihrer Aufgabe zu fehlschlagen, insbesondere wenn die Größe der Aufgabe zunimmt (z. B. Anzahl der Variablen, relevante Informationen). Gehen Sie nicht davon aus, dass ein LLM sie berechnen kann, da die Antwort aus dem Kontext berechnet werden kann.

Was kann ich tun, wenn meine Aufgabe viel Arbeitsgedächtnis benötigt?

Wenn Sie erkennen, dass Ihre anstehende Aufgabe viel Arbeitsgedächtnis erfordert und häufig fehlschlägt, finden Sie hier eine Vielzahl von Korrekturen, die theoretisch motiviert sind, Ihre Chancen auf gute Leistung zu erhöhen:

  • Verwenden Sie ein argumentierendes Modell (und hoffen Sie, dass es nicht aus Token ausgeht). Wir zeigen, dass theoretisch Arguming-Token LLMs ermöglichen, eine Bapo-harte Aufgabe zu lösen. Die Anzahl der Argumentationstoken, die zur Überwindung der Arbeitsgedächtnisgrenzen erforderlich sind, kann jedoch extrem groß sein (wie die Experimente in unserer Arbeit zeigen). Und in der Praxis sogar die besten Argumentationsmodelle Machen Sie immer noch Fehler.
  • Basierend auf unseren theoretischen Ergebnissen könnten Sie Ihr Downside in einen, der mehr hat kompakt Zwischenausdauer, die weniger wahrscheinlich überschreitet, die Arbeitsgedächtnisgrenzen überschreiten. Anstatt die LLM zu bitten, über die vollständige HTML einer Webseite zu begründen, geben Sie eine vereinfachte Syntax wie nur den gerenderten Textual content an. In ähnlicher Weise könnte es für Lumpenszenarien nützlich sein, um nützlich zu sein Vorannotieren oder Vorkombination der Daten Auf eine Weise, die die endgültige Antwort aus den kleineren Zusammenfassungen leicht zu erhalten hat.
  • Schließlich können Sie die Arbeitsmomit-mory-starken Stücke an einen externen Löser oder Software auslagern, z. B. anstatt direkt nach der Mehrheitsmeinung zu fragen, jede Meinung separat zu klassifizieren (bapo-einfach) und dann die Ergebnisse in Python zu aggregieren, anstatt die LLM zu fragen.

Denken Sie daran, dass diese Korrekturen möglicherweise nicht für alle Aufgaben funktionieren, insbesondere wenn nicht klar ist, wie die Aufgaben in weniger Arbeitsgedächtnis -intensive Unteraufgaben zerlegt werden können. Hier kann zukünftige Forschungen hoffentlich die Lücke füllen.

Warum brauchen bestimmte Aufgaben viel Arbeitsgedächtnis?

Für Interessenten befasst sich dieser Abschnitt etwas tiefer in die Theorie aus unserer Arbeit. Um zu analysieren, welche Aufgaben viel Arbeitsgedächtnis benötigen, haben wir zunächst ein abstraktes Modell entwickelt, wie Transformatoren Lösungen berechnen. Wir haben dann das Modell verwendet, um zu beweisen, dass eine Aufgabe schwierig oder einfach ist.

Betrachten Sie als Illustration die Aufgabe, ein neu veröffentlichtes langes Buch zu lesen und dann eine Frage dazu zu beantworten. Es gibt ungefähr zwei Strategien, die Menschen nach dem Lesen anwenden können. Wenn man einen großen Arbeitsgedächtnis hat und alle wichtigen Informationen des Buches erinnern kann, kann man die Frage direkt vom Kopf beantworten. Wenn man dies nicht tut und sich nur an die Huge -Image -Ideen erinnern kann, kann man diesen verwenden, um den groben Ort der relevanten Informationen im Buch zu finden und auf die Seite zurückzukehren, um die Antwort zu finden.

Überlegen Sie nun, wie ein transformatorbasiertes LLM dieselbe Aufgabe verarbeitet. Es wird über den Inhalt des Buches gelesen und dann eine Antwort an der letzten Place berechnet, nachdem es die Frage gelesen hat. Während der Verarbeitung des Inhalts des Buches kann sich die LLM um einige relevante Orte kümmern, um die Antwort zu berechnen (das Äquivalent des Durchblätterns durch Seiten). Oder es kann kontextbezogene Einbettungen des Buches verwenden, um wichtige Fakten zu speichern und die Frage direkt von ihnen zu beantworten (das Äquivalent des Rückrufs). Was es nicht tun kann, ist zurück zu gehen und das Buch in seiner Gesamtheit erneut mit der Frage zu lesen, da die kausale Aufmerksamkeit dazu führt nach vorne Durch das Kontextfenster.

In diesem Szenario bedeutet größerer Arbeitsgedächtnis sowohl für Menschen als auch für KI, dass es eine bessere Likelihood gibt, Informationen zu speichern, die die richtige Antwort ermöglichen, insbesondere wenn die Dinge kompliziert werden. Okay, aber wie definieren wir formeller, welcher Arbeitsgedächtnis für LLM -Aufgaben benötigt wird? In unserer Zeitung machen wir das durch die Aufmerksamkeitspräfix Oracle (BAPO) Modell.

Das BAPO -Modell bietet eine vereinfachte rechnerische Charakterisierung, die wir theoretisch analysieren können, um zu beweisen, welche Probleme mehr oder weniger Bandbreite (dh Arbeitsgedächtnis) für ein LLM erfordern. Um eine Antwort zu berechnen, verwendet das BAPO -Modell (so etwas wie) die beiden Strategien von oben:

  • Das BAPO -Modell kann ein Präfix -Orakel verwenden F zu senden A Informationsbits weiterleiten ↔ Informationen zum Lesen merken
  • Das BAPO -Modell kann auch ein Aufmerksamkeits -Orakel verwenden G zu tun B Token aus früheren Token ↔ kehren auf die Seiten zurück

Wir definieren dann die Arbeitsgedächtnis Anforderungen an eine Aufgabe als Kombination aus zwei Bapo-Bandbreitenparametern (a, b)-die erste bezieht sich darauf, wie viele Informationen vorbereitet und weitergegeben werden (Bandbreite a) und der zweite bezieht sich darauf, wie viel nach der Tatsache (Bandbreite B) nachgeschaut werden kann. Warum ist das Arbeitsgedächtnis die Kombination von zwei Parameter? Es liegt daran, dass es einen Kompromiss gibt: Je mehr Informationen man auswendig gelernt hat, desto weniger Informationen können man nachschlagen.

Wenn eine Aufgabe konstante Bandbreitenanforderungen (dh a, b in o (1)) enthält, wird die Aufgabe die LLM -Arbeitsspeichergröße wahrscheinlich nicht überschreiten. Wenn jedoch eine Aufgabe Bandbreitenanforderungen hat, die von der Größe des Eingangs abhängen (z. B. Sequenz oder Alphabetlänge), überschreiten sie schließlich die Arbeitsspeichergrenzen und führt zum Versagen.

Schlussfolgerungen

Arbeitsgedächtnis ist ein Wichtiger Engpass In transformatorbasierten LLMs. Lange bevor die Informationen die Kontextfenstergröße überschreiten, wird die Fähigkeit des Transformators, diese Informationen im Fenster effektiv darzustellen und zu kommunizieren, überschritten. Aktuelle lange Kontext -Benchmarks Verlassen Sie sich stark auf Nadel-in-a-Haystack-Problemewas wir gezeigt haben, sind bapo-einfach. Dies bedeutet, dass die aktuelle Benchmark-Leistung die Leistung über den gesamten Bereich der Langzeitaufgaben mit langer Kontext nicht genau erfasst wird.

Aufgaben wie komplexe Zusammenfassung, Codeverfolgung oder Inkonsistenzerkennung sind für LLMs gemäß unserem theoretischen Modell schwierig. Sie können enthalten Bapo-harte Unteraufgaben was zu hohen Arbeitsspeicheranforderungen führt, die wiederum Fehler verursachen in der Praxis. Während die jüngsten Fortschritte in der Kontextfensterlänge die Anwendbarkeit von LLMs erweitert haben, erhöht die Verwendung längerer Kontexte auch die Komplexität der damit verbundenen Aufgaben. Dies wird wahrscheinlich die Häufigkeit von Bapo-hartigen Aufgaben erhöhen und zu mehr LLM-Fehlern führen.

Wir haben eine Reihe von Strategien dargelegt, um die Anforderungen des Arbeitsgedächtnisses von Aufgaben zu senkenArgumentationstoken. Sie haben jedoch ihre eigenen Einschränkungen, z. B. einige Aufgaben möglicherweise eine Vielzahl von Argumentationstoken, um die Bandbreitenbeschränkungen in der Praxis zu überwinden. Wir hoffen, dass zukünftige Forschung allgemeinere Lösungen und möglicherweise sogar neue Architekturen über Transformatoren liefern kann.

Referenzen

Fußnoten

ª Sie fragen sich vielleicht, ob die Frage zuerst die Arbeitsspeicheranforderungen ändert. Nein – Weitere Informationen finden Sie in Papier.

Von admin

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert