OLMo 2-Modelle sind die vollständig Open-Supply-Sprachmodelle von Ai2. Sie verfügen über dichte autoregressive Architekturen mit optimierten Trainings, Datenmischungen vor dem Coaching und fortschrittlichen Techniken zur Befehlsoptimierung. Durch die Verbesserung der Trainingsstabilität und die Verbesserung der Effizienz professional Token setzt OLMo 2 Maßstäbe in Bezug auf Leistung und Transparenz. Die Einführung von Dolmino Combine 1124, einem speziellen Datenmix für Lehrplanschulungen im Spätstadium, verbessert die Downstream-Fähigkeiten weiter. In Verbindung mit den Finest Practices von Tülu 3 erzielt OLMo 2-Instruct beeindruckende Ergebnisse im Vergleich zu anderen Lama 3.1 Und Qwen 2.5. Erfahren Sie mehr über diese Modelle!

2 OLAMo 2 Livid

OLMo 2 baut auf den Grundlagen seiner Vorgänger auf und bietet vollständig offene Sprachmodelle mit Parametergrößen von 7 Milliarden und 13 Milliarden. Im Gegensatz zu vielen Branchenkollegen gewährleistet OLMo 2 vollständige Transparenz und gibt Trainingsdaten, Code, Rezepte und sogar Zwischenkontrollpunkte frei. Dieses Engagement beschleunigt nicht nur die akademische und industrielle Forschung, sondern fördert auch ein kollaboratives KI-Entwicklungsökosystem.

Diese Modelle konkurrieren stark mit Branchenriesen wie Llama 3.1 und Qwen 2.5 und verbrauchen dabei weniger Rechenressourcen. Ihre Leistung bringt sie an die Pareto-Grenze, wo Effizienz auf Exzellenz trifft, was sie für verschiedene nachgelagerte Anwendungen von unschätzbarem Wert macht.

Alles zum Modell finden Sie in diesem Forschungsbericht – 2 OLAMo 2 Livid.

Hauptmerkmale der OLMo 2-Modelle

Verbesserte Trainingsstabilität

Beim Coaching umfangreicher Sprachmodelle kommt es häufig zu Instabilitäten wie Verlustspitzen. OLMo 2 begegnet diesen Herausforderungen durch:

  • Datenkuration: Filtern wiederholter N-Gramm, um Gradienten- und Verlustspitzen zu minimieren.
  • Verbesserte Initialisierung: Wechsel zu einem standardisierten Initialisierungsschema, das die Stabilität über Schichten hinweg gewährleistet.
  • Regularisierungstechniken: Einbindung von Z-Verlust zur Stabilisierung der Ausgabeprotokolle.

Diese Anpassungen führen zu einem reibungsloseren Trainingsprozess und ermöglichen es den Modellen, größere Datensätze effizienter zu verarbeiten.

Optimierte Datenmischungen

Das Vortraining von OLMo 2 umfasst einen zweistufigen Ansatz:

  • Vortrainingsphase: Nutzt eine Mischung hochwertiger Webdaten im Umfang von insgesamt 5 Billionen Token.
  • Mittlere Trainingsphase: Führt domänenspezifische Datensätze ein, insbesondere in den Bereichen Mathematik und MINT, um spezielle Fähigkeiten zu stärken. Der Dolmino Combine 1124-Datensatz veranschaulicht diese Strategie und kombiniert aus dem Web stammende und kuratierte Daten für gezielte Leistungsverbesserungen.

Architektonische Fortschritte

OLMo 2 integriert moderne Innovationen zur Verbesserung seiner Transformatorarchitektur, darunter:

  • RMSNorm: Eine stabile Normalisierungsmethode für Aktivierungen.
  • Neugeordnete Ebenennorm: Normalisierung der Aufmerksamkeits- und Feedforward-Ausgaben und Verbesserung der Stabilität.
  • Erhöhte Auflösung der Positionskodierung: Einführung rotierender Positionseinbettungen mit höherer Auflösung für eine bessere Sequenzverarbeitung.

Diese Funktionen steigern gemeinsam die Skalierbarkeit und Effizienz des Modells.

Exzellenz nach dem Coaching

Die Submit-Coaching-Pipeline von OLMo 2, inspiriert vom Tülu 3-Rezept, konzentriert sich auf die Optimierung der Anweisungen und das verstärkende Lernen. Zu den Schlüsselkomponenten gehören:

  • Überwachte Feinabstimmung (SFT): Nutzung hochwertiger Eingabeaufforderungen zur Verbesserung der Fähigkeiten zur Befolgung von Anweisungen.
  • Reinforcement Studying mit überprüfbaren Belohnungen (RLVR): Optimieren Sie die Leistung bei bestimmten Aufgaben wie Mathematik und sachlichem Denken durch die Belohnung korrekter Ergebnisse.

Dieser Ansatz hat zu OLMo 2-Instruct-Modellen geführt, die sich in Benchmarks wie GSM8K für mathematisches Denken und MMLU für Multitasking-Sprachverständnis auszeichnen.

Effizienz trifft Transparenz

OLMo 2 zeichnet sich durch eine effiziente Nutzung der Rechenressourcen aus. Durch die Reduzierung von FLOPs (Gleitkommaoperationen) während des Trainings wird eine hohe Leistung bei geringerer Umweltbelastung erreicht. Eine detaillierte Berichterstattung über Stromverbrauch und CO2-Emissionen unterstreicht das Engagement des Projekts für Nachhaltigkeit.

Infrastruktur als Forschungskatalysator

Der Erfolg des Projekts wird auch auf die fortschrittliche Infrastruktur von Ai2 zurückgeführt:

  • Hochleistungscluster: Nutzung modernster {Hardware}, einschließlich NVIDIA H100-GPUs, in mehreren Rechenzentren.
  • Becher-Workload-Administration: Gewährleistung einer nahtlosen Arbeitslastverteilung und -überwachung.

Diese Investitionen in die Infrastruktur haben die Ausbildungsunterbrechungen deutlich reduziert und die Ressourcenauslastung erhöht.

OLMo 2 gegen Qwen 2.5 gegen Llama 3.1 gegen andere

Um die Wirkung weiter zu veranschaulichen, übertreffen die Benchmarks von OLMo 2 bei bestimmten Aufgaben häufig die von Qwen 2.5 und Llama 3.1. Die Einbeziehung von Dolmino Combine 1124 hat die Leistung bei MINT- und mathematikbasierten Benchmarks erheblich verbessert. Darüber hinaus weist OLMo 2 bemerkenswerte Effizienzsteigerungen auf, indem es bis zu 20 % weniger FLOPs verwendet und gleichzeitig vergleichbare oder bessere Ergebnisse erzielt.

Probieren wir OLMo 2 aus

Um auf das Modell zuzugreifen, können Sie besuchen Hier. Sie können es ohne Anmeldung nutzen.

Immediate: Sie haben es eilig zur Arbeit. Sie gießen sich eine Tasse schwarzen Kaffee ein, aber er ist zu heiß. Sie beabsichtigen, eine festgelegte Menge kalter Milch hinzuzufügen, wissen aber, dass der Kaffee auch danach noch einige Minuten abkühlen muss, bevor Sie ihn trinken können.
In diesem Fall kühlt der Kaffee stärker ab:
1) Fügen Sie sofort Milch hinzu und warten Sie dann einige Minuten, bevor Sie trinken.
2) Warten Sie einige Minuten und fügen Sie dann erst kurz vor dem Trinken Milch hinzu.

Ausgabe:

Beobachtung: Die Antwort auf meine Aufforderung ist korrekt. OLMo 2 konnte das Downside verstehen und die richtige Antwort geben. DeepSeek V3 konnte dies in meinem vorherigen Artikel nicht richtig lösen DeepSeek V3 vs. Claude Sonnet 3.5.

Sie können dieses Modell auch lokal verwenden. Befolgen Sie dazu einfach die angegebene Anleitung Hier.

Abschluss

OLMo 2 zeigt das bemerkenswerte Potenzial von Open-Supply-KI und setzt neue Maßstäbe in Bezug auf Transparenz und Innovation. Durch die Veröffentlichung seines Codes, seiner Daten und Erkenntnisse demokratisiert es den Zugang zu Spitzentechnologie und fördert so Zusammenarbeit und Fortschritt. Mit dem Engagement von Ai2 für Offenheit ermöglicht OLMo 2 Forschern und Entwicklern die freie Innovation, erweitert die Möglichkeiten für gesellschaftliche und industrielle Auswirkungen und treibt gleichzeitig die Zukunft von KI-Anwendungen voran.

Wenn Sie erfahren möchten, wie diese Modelle funktionieren, schauen Sie sich unsere an Generatives KI-Pinnacle-Programm!

Hallo, ich bin Nitika, eine technisch versierte Content material-Erstellerin und Vermarkterin. Kreativität und das Lernen neuer Dinge sind für mich selbstverständlich. Ich habe Erfahrung in der Erstellung ergebnisorientierter Content material-Strategien. Ich kenne mich intestine mit Web optimization-Administration, Key phrase-Operationen, Net-Content material-Schreiben, Kommunikation, Content material-Strategie, Redaktion und Schreiben aus.



Von admin

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert