
Wenn Forscher große Sprachmodelle (LLMs) aufbauen, wollen sie die Leistung im Rahmen eines bestimmten Rechen- und Finanzbudgets maximieren. Da das Coaching ein Modell Millionen von Greenback bedeuten kann, müssen Entwickler mit kostengünstigen Entscheidungen über die Modellarchitektur, Optimierer und Schulungsdatensätze, bevor sie sich zu einem Modell verpflichten, vernünftig sein. Um die Qualität und Genauigkeit der Vorhersagen eines großen Modells zu antizipieren, wenden sich die Praktiker häufig den Skalierungsgesetzen zu: Verwenden kleinerer, billigerer Modelle, um zu versuchen, die Leistung eines viel größeren Zielmodells zu approximieren. Die Herausforderung besteht jedoch darin, dass es Tausende von Möglichkeiten gibt, ein Skalierungsgesetz zu schaffen.
Neue Arbeiten von MIT- und MIT-IBM Watson AI Lab-Forschern befassen sich mit dieser Anhäufung und Freigabe einer Sammlung von Hunderten von Modellen und Metriken in Bezug auf Coaching und Leistung, um mehr als tausend Skalierungsgesetze zu entsprechen. Aus diesem Grund entwickelte das Group eine Metaanalyse und eine Anleitung für die Auswahl kleiner Modelle und die Schätzung der Skalierungsgesetze für verschiedene LLM-Modellfamilien, sodass das Finances optimum für die Erzeugung zuverlässiger Leistungsvorhersagen angewendet wird.
„Die Vorstellung, dass Sie vielleicht versuchen möchten, mathematische Modelle des Trainingsprozesses aufzubauen, ist ein paar Jahre alt, aber ich denke, das Neue hier ist, dass die meisten Arbeiten, die die Leute zuvor gemacht hatten, zu sagen: ‚Können wir etwas nach dem Hoc sagen, was passiert ist, als wir alle diese Modelle ausgebildet haben. Professor in der Abteilung für Elektrotechnik und Informatik und Principal Investigator beim MIT-IBM Watson AI Lab.
Die Forschung wurde kürzlich auf der Internationalen Konferenz über maschinelles Lernen von Andreas zusammen mit MIT-IBM Watson AI Lab-Forschern Leshem Choshen und Yang Zhang von IBM Analysis vorgestellt.
Leistung extrapolieren
Unabhängig davon, wie Sie es in Scheiben schneiden, ist das Entwickeln von LLMs ein teures Unterfangen: Aus der Entscheidungsfindung hinsichtlich der Anzahl der Parameter und Token, der Datenauswahl und -größe sowie der Trainingstechniken zur Bestimmung der Ausgangsgenauigkeit und der Stimmung auf die Zielanwendungen und -aufgaben. Die Skalierungsgesetze bieten eine Möglichkeit, das Modellverhalten zu prognostizieren, indem die Verlust eines großen Modells auf die Leistung kleinerer, weniger günstiger Modelle aus derselben Familie in Verbindung gebracht wird und die Notwendigkeit vermeidet, jeden Kandidaten vollständig auszubilden. Hauptsächlich sind die Unterschiede zwischen den kleineren Modellen die Anzahl der Parameter und die Token -Trainingsgröße. Laut Choshen ermöglichen die Aufklärung der Skalierungsgesetze nicht nur bessere Entscheidungen vor dem Coaching, sondern auch dem Feld, indem er Forschern ohne große Ressourcen ermöglicht, wirksame Skalierungsgesetze zu verstehen und aufzubauen.
Die funktionale Type der Skalierungsgesetze ist relativ einfach und enthält Komponenten aus den kleinen Modellen, die die Anzahl der Parameter und deren Skalierungseffekt, die Anzahl der Trainingsstoken und deren Skalierungseffekt sowie die Basisleistung der Modellfamilie von Interesse erfassen. Gemeinsam helfen sie Forschern, den Leistungsverlust eines Zielmodells zu schätzen. Je kleiner der Verlust ist, desto besser ist es wahrscheinlich, dass die Ausgänge des Zielmodells wahrscheinlich sein.
Diese Gesetze ermöglichen es Forschungsteams, Kompromisse effizient abzuwägen und zu testen, wie begrenzte Ressourcen am besten bereitgestellt werden können. Sie sind besonders nützlich für die Bewertung der Skalierung einer bestimmten Variablen wie der Anzahl der Token und für A/B-Exams verschiedener Voraussetzungen.
Im Allgemeinen sind Skalierungsgesetze nicht neu; Im Bereich der KI traten sie jedoch auf, als die Modelle wuchsen und die Kosten sprunghaft in die Höhe. „Es ist, als ob die Skalierungsgesetze irgendwann auf dem Gebiet erschienen sind“, sagt Choshen. „Sie haben begonnen, Aufmerksamkeit zu erregen, aber niemand hat wirklich getestet, wie intestine sie sind und was Sie tun müssen, um ein gutes Skalierungsgesetz zu erstellen.“ Darüber hinaus waren Skalierungsgesetze in gewissem Sinne auch selbst eine schwarze Field. „Immer wenn Menschen in der Vergangenheit Skalierungsgesetze erstellt haben, warfare es immer nur ein Modell oder eine Modellfamilie, ein Datensatz und ein Entwickler“, sagt Andreas. „Es hatte nicht wirklich viel systematische Metaanalyse gegeben, da jeder seine eigenen Skalierungsgesetze individuell trainiert.
Besser aufbauen
Um dies zu untersuchen, haben Choshen, Andreas und Zhang einen großen Datensatz erstellt. Sie sammelten LLMs aus 40 Modellfamilien, darunter Pythia, OPT, Olmo, Lama, Bloom, T5-Pile, Modulformer-Mischung aus Experten, GPT und anderen Familien. Dazu gehörten 485 einzigartige, vorgeborene Modelle und sofern verfügbar, Daten zu ihren Trainingskontrollpunkten, Rechenkosten (FLOPs), Trainings-Epochen und Saatgut sowie 1,9 Millionen Leistungsmetriken für Verlust- und Downstream-Aufgaben. Die Modelle unterschieden sich in ihren Architekturen, Gewichten und so weiter. Mit diesen Modellen fügen die Forscher über 1.000 Skalierungsgesetze ein und verglichen ihre Genauigkeit über Architekturen, Modellgrößen und Schulungsregime hinweg sowie die Anzahl der Modelle, die Einbeziehung von Zwischentrainingskontrollpunkten und die teilweise Schulung auf die Vorhersagekraft der Skalierungsgesetze für Zielmodelle. Sie verwendeten Messungen des absoluten relativen Fehlers (sind); Dies ist der Unterschied zwischen der Vorhersage des Skalierungsgesetzes und dem beobachteten Verlust eines großen, geschulten Modells. Damit verglichen das Group die Skalierungsgesetze und destillierte praktische Empfehlungen für KI -Praktiker nach der Analyse, was effektive Skalierungsgesetze ausmacht.
Ihre gemeinsam genutzten Richtlinien führen den Entwickler durch Schritte und Optionen zu berücksichtigen und die Erwartungen zu erwarten. Erstens ist es wichtig, über eine Rechenbudget und die Genauigkeit des Zielmodells zu entscheiden. Das Group stellte fest, dass 4 Prozent die beste erreichbare Genauigkeit sind, die man aufgrund zufälliger Saatgutgeräusche erwarten kann, aber bis zu 20 Prozent sind immer noch nützlich für die Entscheidungsfindung. Die Forscher identifizierten mehrere Faktoren, die Vorhersagen verbessern, z. B. das Einbeziehen von Zwischentrainingskontrollpunkten, anstatt sich nur auf die endgültigen Verluste zu verlassen. Dies machte die Skalierungsgesetze zuverlässiger. Sehr frühe Schulungsdaten vor 10 Milliarden Token sind laut, verringern die Genauigkeit und sollten verworfen werden. Sie empfehlen, Schulungen mehr Modelle in einer Verbreitung von Größen zu priorisieren, um die Robustheit der Vorhersage des Skalierungsgesetzes zu verbessern, nicht nur größere Modelle. Die Auswahl von fünf Modellen bietet einen soliden Ausgangspunkt.
Im Allgemeinen verbessert einschließlich größerer Modelle die Vorhersage, aber die Kosten können gespeichert werden, indem das Zielmodell teilweise auf etwa 30 Prozent seines Datensatzes trainiert und das für die Extrapolation verwendet wird. Wenn das Finances erheblich eingeschränkt ist, sollten Entwickler in Betracht ziehen, ein kleineres Modell innerhalb der Zielmodellfamilie zu schulen und Skalierungsrechtsparameter aus einer Modellfamilie mit ähnlicher Architektur auszuleihen. Dies funktioniert jedoch möglicherweise nicht für Encoder -Decoder -Modelle. Schließlich stellte die MIT-IBM-Forschungsgruppe fest, dass bei Vergleich der Skalierungsgesetze über Modellfamilien eine starke Korrelation zwischen zwei Hyperparametersätzen bestand, was bedeutet, dass drei der fünf Hyperparameter quick die gesamte Variation erklärten und das Modellverhalten wahrscheinlich erfassen könnten. Zusammen bieten diese Richtlinien einen systematischen Ansatz, um die Schätzung der Skalierung effizienter, zuverlässiger und zugänglicher für KI -Forscher, die unter unterschiedlichen Budgetbeschränkungen arbeiten, zugänglicher zu gestalten.
Während dieser Arbeit traten mehrere Überraschungen auf: Kleine Modelle, die teilweise ausgebildet sind, sind immer noch sehr prädiktiv, und ferner können die Zwischenausbildungsphasen eines vollständig ausgebildeten Modells (als ob sie einzelne Modelle sind) für die Vorhersage eines anderen Zielmodells verwendet werden. „Grundsätzlich zahlen Sie im Coaching nichts, weil Sie das vollständige Modell bereits trainiert haben, so dass das halbgebildete Modell beispielsweise nur ein Nebenprodukt dessen ist, was Sie getan haben“, sagt Choshen. Ein weiteres Merkmal, auf das Andreas hinwies, warfare, dass die Variabilität zwischen Modellfamilien und unterschiedlichen Experimenten, wenn sie aggregiert waren, herausgefahren und laut warfare als erwartet. Unerwartet stellten die Forscher fest, dass es möglich ist, die Skalierungsgesetze für große Modelle zu nutzen, um die Leistung auf kleinere Modelle vorherzusagen. Andere Untersuchungen auf diesem Gebiet haben die Hypothese aufgestellt, dass kleinere Modelle im Vergleich zu großen „anderen Tier“ waren. Choshen ist jedoch anderer Meinung. „Wenn sie völlig anders sind, hätten sie ein völlig anderes Verhalten zeigen sollen, und sie tun es nicht.“
Während sich diese Arbeit auf die Modelltrainingszeit konzentrierte, planen die Forscher, ihre Analyse auf Modellinferenz zu erweitern. Andreas sagt, es ist nicht: „Wie wird mein Modell besser, wenn ich mehr Trainingsdaten oder weitere Parameter hinzufüge, sondern wenn ich es länger nachdenken lasse, zeichne ich mehr Beispiele. Ich denke, es gibt definitiv Lehren darüber zu lernen, wie man auch Vorhersagemodelle dafür aufbaut, wie viel denken, wie viel Sie zur Laufzeit tun müssen.“ Er sagt, dass die Theorie der Inferenzzeit die Skalierungsgesetze noch kritischer werden könnte, weil „es nicht so ist, als würde ich ein Modell trainieren und dann fertig sein.
Diese Forschung wurde teilweise vom MIT-IBM Watson AI Lab und einem Sloan Analysis Fellowship unterstützt.
