NeurIPS hat seine Liste der besten Forschungsarbeiten für das Jahr 2025 gestrichen, und die Liste leistet mehr, als nur beeindruckende Namen zu nennen. Es bietet eine Karte zur Navigation durch die Probleme, die das Fachgebiet jetzt beschäftigt. Dieser Artikel würde etwas Licht darauf werfen, was diese Papiere sind und wie sie zur KI beitragen konnten. Für den Fall, dass Sie neugierig sind, haben wir auch Hyperlinks zu den vollständigen Artikeln eingefügt.

Die Auswahlkriterien

Die Komitees zur Auszeichnung der besten Beiträge wurden damit beauftragt, eine Handvoll äußerst wirkungsvoller Beiträge aus dem auszuwählen Hauptgleis und die Datensätze und Benchmark Monitor der Konferenz. Als Sieger gingen vier Papiere hervor.

Die Gewinner!

Künstliches Hivemind: Die ergebnisoffene Homogenität von Sprachmodellen (und darüber hinaus)

Vielfalt ist etwas, das große Sprachmodelle seit ihrer Entstehung gefehlt hatte. Es wurden umfangreiche Anstrengungen unternommen, um die Ergebnisse eines Modells von den anderen zu unterscheiden, aber die Bemühungen waren vergeblich.

Die Homogenität der Reaktion von LLMs über Architekturen und Unternehmen hinweg verdeutlicht durchweg den Mangel an Kreativität in LLMs. Wir nähern uns langsam dem Punkt, an dem eine Modellreaktion nicht mehr von der anderen zu unterscheiden wäre.

Das Papier skizziert das Downside traditioneller Benchmarks. Die meisten Benchmarks verwenden enge, aufgabenähnliche Abfragen (Mathematik, Wissenswertes, Code). Aber echte Benutzer stellen chaotische, kreative und subjektive Fragen. Und genau da sind sie Modelle zerfallen in ähnliche Ausgaben. Das Papier schlägt einen Datensatz vor, der dieses Gebiet systematisch untersucht.

Diese beiden Konzepte stehen im Mittelpunkt des Papiers:

  • Wiederholung innerhalb des Modells: Ein einzelnes Modell wiederholt sich über verschiedene Eingabeaufforderungen oder verschiedene Läufe hinweg.
  • Homogenität zwischen Modellen: Verschiedene Modelle liefern erschreckend ähnliche Antworten.

Der zweite Teil ist besorgniserregend: Wenn Anthropic, Google und Meta alle unterschiedliche Modelle hätten, die dieselbe Reaktion nachahmen, was ist dann der Sinn dieser unterschiedlichen Entwicklungen?

Die Lösung: Infinity-Chat

Infinity-Chat, der als Lösung für dieses Downside vorgeschlagene Datensatz, enthält mehr als 30.000 menschliche Anmerkungen, die jeder Eingabeaufforderung 25 unabhängige Bewertungen verleihen. Diese Dichte ermöglicht es, zu untersuchen, wie sich die Geschmäcker der Menschen unterscheiden, und nicht nur, wo sie übereinstimmen. Als die Autoren diese menschlichen Urteile mit Modellergebnissen, Belohnungsmodellen und automatisierten LLM-Evaluatoren verglichen, fanden sie ein klares Muster: Systeme sehen intestine kalibriert aus, wenn die Präferenzen einheitlich sind, aber sie geraten ins Wanken, sobald die Antworten echte Meinungsverschiedenheiten auslösen. Das ist der wahre Wert von Infinity-Chat!

Autoren: Liwei Jiang, Yuanjun Chai, Margaret Li, Mickel Liu, Raymond Fok, Nouha Dziri, Yulia Tsvetkov, Maarten Sap, Yejin Choi

Vollständiges Papier: https://openreview.internet/discussion board?id=saDOrrnNTz

Gated Consideration für große Sprachmodelle: Nichtlinearität, Sparsity und Aufmerksamkeitssenkenfrei

Transformatoren gibt es schon lange genug, dass die Leute davon ausgehen, dass der Aufmerksamkeitsmechanismus ein fester Entwurf ist. Es stellt sich heraus, dass das nicht der Fall ist! Trotz aller architektonischen Methods, die im Laufe der Jahre hinzugefügt wurden, ist die Aufmerksamkeit immer noch mit Kosten für Instabilität, massiven Aktivierungen und der bekannten Aufmerksamkeitssenke verbunden, die dafür sorgt, dass sich Modelle auf irrelevante Token konzentrieren.

Die Autoren dieser Studie gingen einer einfachen Frage nach und formulierten sie energisch: Was passiert, wenn man nach der Aufmerksamkeitsberechnung ein Gate hinzufügt und nichts weiter? Sie führen mehr als dreißig Experimente mit dichten Modellen durch MoE (Expertenmischung) Modelle, die auf Billionen von Token trainiert wurden. Das Überraschende daran ist, wie konsistent diese kleine Änderung in allen Einstellungen hilft.

Es gibt zwei Ideen, die erklären, warum Gating so intestine funktioniert:

  • Nichtlinearität und Sparsity: Kopfspezifische Sigmoid-Gates fügen nach der Aufmerksamkeit eine neue Nichtlinearität hinzu und überlassen es dem Modell, zu steuern, welche Informationen vorwärts fließen.
  • Kleine Veränderung, große Wirkung: Die Modifikation ist zwar winzig, steigert aber die Leistung bei allen Modellgrößen kontinuierlich.

Die Lösung: Output Gating

Das Papier empfiehlt eine einfache Modifikation: Wenden Sie ein Gate auf die Aufmerksamkeitsleistung professional Kopf an. Mehr nicht. Die Experimente zeigen, dass dieser Repair die Leistung über alle Modellgrößen hinweg kontinuierlich verbessert. Da der Mechanismus einfach ist, wird von der breiteren Gemeinschaft erwartet, dass er ihn reibungslos übernimmt. Die Arbeit zeigt, dass selbst ausgereifte Architekturen noch Raum für sinnvolle Verbesserungen haben.

Autoren: Zihan Qiu, Zekun Wang, Bo Zheng, Zeyu Huang, Kaiyue Wen, Songlin Yang, Rui Males, Le Yu, Fei Huang, Suozhi Huang, Dayiheng Liu, Jingren Zhou, Junyang Lin

Vollständiges Papier: https://openreview.internet/discussion board?id=1b7whO4SfY

Abgesehen von diesen beiden Dokumenten bieten die anderen beiden Papiere nicht unbedingt eine Lösung, sondern schlagen vielmehr einige Hinweise vor, die befolgt werden könnten.

1000-Layer-Netzwerke für selbstüberwachtes RL: Skalierungstiefe kann neue Möglichkeiten zur Zielerreichung ermöglichen

RDurchsetzungslernen blieb lange bei flachen Modellen hängen, weil das Trainingssignal zu schwach ist, um sehr tiefe Netzwerke zu steuern. Dieses Papier widerlegt diese Annahme und zeigt, dass Tiefe keine Belastung darstellt. Es handelt sich um eine Fähigkeitsfreischaltung.

Die Autoren trainieren Netzwerke mit bis zu tausend Schichten in einem zielkonditionierten, selbstüberwachten Aufbau. Keine Belohnungen. Keine Demonstrationen. Der Agent lernt, indem er erforscht und vorhersagt, wie er befohlene Ziele erreichen kann. Tiefergehende Modelle verbessern nicht nur die Erfolgsquoten. Sie lernen Verhaltensweisen, die oberflächliche Modelle nie entdecken.

Zwei Ideen stehen im Mittelpunkt, warum Tiefe hier funktioniert:

  • Kontrastive Selbstüberwachung: Der Agent lernt durch den Vergleich von Zuständen und Zielen, wodurch ein stabiles, dichtes Lernsignal entsteht.
  • Chargengröße und Stabilität: Das Coaching sehr tiefer Netzwerke funktioniert nur, wenn die Batch-Größe mit der Tiefe zunimmt. Größere Chargen halten die Kontrastaktualisierungen stabil und verhindern einen Zusammenbruch.

Autoren: Kevin Wang, Ishaan Javali, Michał Bortkiewicz, Tomasz Trzcinski, Benjamin Eysenbach
Vollständiges Papier: https://openreview.internet/discussion board?id=s0JVsx3bx1

Warum sich Diffusionsmodelle nicht merken: Die Rolle der impliziten dynamischen Regularisierung im Coaching

Verbreitung models merken sich ihre Trainingsdaten selten, selbst wenn sie stark parametrisiert sind. Dieses Papier befasst sich mit dem Trainingsprozess, um zu erklären, warum dies geschieht.

Die Autoren identifizieren zwei Trainingszeitskalen. Man markiert, wann das Modell beginnt, qualitativ hochwertige Proben zu produzieren. Die Sekunde markiert den Beginn des Auswendiglernens. Der entscheidende Punkt ist, dass die Generalisierungszeit unabhängig von der Größe des Datensatzes gleich bleibt, während die Speicherzeit mit zunehmendem Datensatz zunimmt. Dadurch entsteht ein erweitertes Fenster, in dem das Modell ohne Überanpassung verallgemeinert wird.

Zwei Ideen stehen im Mittelpunkt, warum das Auswendiglernen weiterhin unterdrückt wird:

  • Trainingszeiten: Die Generalisierung tritt schon früh im Coaching auf. Das Auswendiglernen tritt nur auf, wenn das Coaching weit über diesen Punkt hinaus fortgesetzt wird.
  • Implizite dynamische Regularisierung: Die Aktualisierungsdynamik lenkt das Modell natürlich eher in Richtung einer breiten Struktur als in Richtung spezifischer Stichproben.

In diesem Artikel wird weder ein Modell noch eine Methode vorgestellt. Es gibt eine klare Erklärung für ein Verhalten, das Menschen beobachtet hatten, aber nicht vollständig rechtfertigen konnten. Es verdeutlicht, warum sich Diffusionsmodelle so intestine verallgemeinern lassen und warum sie nicht auf die bei anderen beobachteten Gedächtnisprobleme stoßen generative Modelle.

Autoren: Tony Bonnaire, Raphaël Urfin, Giulio Biroli, Marc Mezard
Vollständiges Papier: https://openreview.internet/discussion board?id=BSZqpqgqM0

Abschluss

Die vier Beiträge geben einen klaren Ton für die Richtung vor, in die sich die Forschung entwickeln wird. Anstatt größere Modelle um ihrer selbst willen zu jagen, liegt der Schwerpunkt darauf, deren Grenzen zu verstehen, seit langem bestehende Engpässe zu beheben und die Stellen aufzudecken, an denen Modelle stillschweigend scheitern. Ob es sich um die schleichende Homogenisierung der LLM-Ergebnisse, die übersehene Schwäche der Aufmerksamkeitsmechanismen, das ungenutzte Potenzial der Tiefe in RL oder die verborgene Dynamik handelt, die das Auswendiglernen von Diffusionsmodellen verhindert, jeder Artikel treibt das Feld in Richtung einer fundierteren Sicht auf das tatsächliche Verhalten dieser Systeme. Es ist eine Erinnerung daran, dass echter Fortschritt auf Klarheit beruht und nicht nur auf der Größe.

Häufig gestellte Fragen

Q1. Was macht diese NeurIPS 2025-Papiere wichtig?

A. Sie beleuchten die zentralen Herausforderungen, die die moderne KI prägen, von der LLM-Homogenisierung und Aufmerksamkeitsschwächen bis hin zur RL-Skalierbarkeit und der Verallgemeinerung von Diffusionsmodellen.

Q2. Warum ist der Artikel „Synthetic Hivemind“ ein Gewinner?

A. Es zeigt, wie LLMs zu ähnlichen Ergebnissen konvergieren, und stellt Infinity-Chat vor, den ersten großen Datensatz zur Messung der Diversität in offenen Eingabeaufforderungen.

Q3. Welches Downside löst Infinity-Chat?

A. Es erfasst die Vielfalt der menschlichen Präferenzen und zeigt, wo Modelle, Belohnungssysteme und automatische Richter nicht mit der tatsächlichen Meinungsverschiedenheit der Benutzer übereinstimmen.

Ich bin auf die Überprüfung und Verfeinerung von KI-gestützter Forschung, technischer Dokumentation und Inhalten im Zusammenhang mit neuen KI-Technologien spezialisiert. Meine Erfahrung umfasst KI-Modelltraining, Datenanalyse und Informationsabruf und ermöglicht es mir, Inhalte zu erstellen, die sowohl technisch korrekt als auch zugänglich sind.

Melden Sie sich an, um weiterzulesen und von Experten kuratierte Inhalte zu genießen.

Von admin

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert