Durch stabile Diffusion erzeugtes Bild

Wenn Spezialmodelle Allzweckmodelle übertreffen

„Größer ist immer besser“ – dieser Grundsatz ist tief in der KI-Welt verwurzelt. Jeden Monat entstehen größere Modelle mit immer mehr Parametern. Unternehmen bauen sogar KI-Rechenzentren im Wert von 10 Milliarden US-Greenback für sie. Aber ist es die einzige Richtung, in die es gehen kann?

Bei NeurIPS 2024, Ilya Sutskevereiner der Mitbegründer von OpenAI, teilte eine Idee: „Das Vortraining, wie wir es kennen, wird zweifellos enden“. Es scheint das Die Ära der Skalierung geht zu Endewas bedeutet, dass es an der Zeit ist, sich auf die Verbesserung aktueller Ansätze und Algorithmen zu konzentrieren.

Einer der vielversprechendsten Bereiche ist die Verwendung kleiner Sprachmodelle (SLMs) mit bis zu 10B Parametern. Dieser Ansatz fängt in der Branche wirklich an, sich durchzusetzen. Zum Beispiel Clem Delangue, CEO von Hugging Face, prognostiziert, dass bis zu 99 % der Anwendungsfälle mit SLMs gelöst werden könnten. Ein ähnlicher Development ist in der zu erkennen Neueste Anfragen für Startups von YC:

Riesige generische Modelle mit vielen Parametern sind sehr beeindruckend. Sie sind jedoch auch sehr kostspielig und bringen oft Probleme mit der Latenz und dem Datenschutz mit sich.

In meinem letzten Artikel „Sie benötigen doch keine gehosteten LLMs, oder?„Ich habe mich gefragt, ob Sie selbst gehostete Modelle benötigen. Jetzt gehe ich noch einen Schritt weiter und stelle die Frage: Braucht man überhaupt LLMs?

„Kurze“ Zusammenfassung des Artikels.

In diesem Artikel erörtere ich, warum kleine Modelle die Lösung sein können, die Ihr Unternehmen benötigt. Wir sprechen darüber, wie sie Kosten senken, die Genauigkeit verbessern und die Kontrolle über Ihre Daten behalten können. Und natürlich werden wir eine ehrliche Diskussion über ihre Grenzen führen.

Die Ökonomie von LLMs ist wahrscheinlich eines der schmerzhaftesten Themen für Unternehmen. Das Drawback ist jedoch viel umfassender: Es umfasst den Bedarf an teurer {Hardware}, Infrastrukturkosten, Energiekosten und Umweltfolgen.

Ja, große Sprachmodelle sind in ihren Fähigkeiten beeindruckend, aber ihre Wartung ist auch sehr teuer. Sie haben vielleicht schon bemerkt, dass die Abonnementpreise für LLM-basierte Anwendungen gestiegen sind? Zum Beispiel die jüngste Ankündigung von OpenAI, a 200 $/Monat Der Professional-Plan ist ein Sign dafür, dass die Kosten steigen. Und es ist wahrscheinlich, dass auch Wettbewerber diese Preisniveaus erreichen werden.

200 $ für den Professional-Plan

Die Moxie-Robotergeschichte ist ein gutes Beispiel für diese Aussage. Embodied hat für 800 US-Greenback einen großartigen Begleitroboter für Kinder entwickelt, der die OpenAI-API nutzt. Trotz des Erfolgs des Produkts (Kinder schickten täglich 500–1000 Nachrichten!), hat das Unternehmen wird abgeschaltet aufgrund der hohen Betriebskosten der API. Jetzt werden Tausende von Robotern nutzlos und Kinder werden ihren Freund verlieren.

Ein Ansatz besteht darin, Feinabstimmung eines speziellen Small Language-Modells für Ihre spezifische Domäne. Natürlich wird es nicht „alle Probleme der Welt“ lösen, aber es wird die ihm zugewiesene Aufgabe perfekt bewältigen. Zum Beispiel die Analyse der Kundendokumentation oder die Erstellung spezifischer Berichte. Gleichzeitig sind SLMs wirtschaftlicher in der Wartung, verbrauchen weniger Ressourcen, erfordern weniger Daten und können auf viel bescheidenerer {Hardware} ausgeführt werden (bis hin zu einem Smartphone).

Vergleich der Auslastung von Modellen mit unterschiedlicher Parameteranzahl. Quelle1, Quelle2, Quelle3, Quelle4.

Und schließlich dürfen wir die Umwelt nicht vergessen. Im Artikel Kohlenstoffemissionen und Coaching großer neuronaler NetzeIch habe eine interessante Statistik gefunden, die mich verblüffte: Das Coaching von GPT-3 mit 175 Milliarden Parametern verbrauchte so viel Strom, wie ein durchschnittliches amerikanisches Haus in 120 Jahren verbraucht. Es auch produzierte 502 Tonnen CO₂was mit dem jährlichen Betrieb von mehr als hundert Benzinautos vergleichbar ist. Und dabei sind die schlussfolgernden Kosten nicht mit eingerechnet. Im Vergleich dazu ist der Einsatz eines kleineren Modells wie dem 7B würde 5 % erfordern des Verbrauchs eines größeren Modells. Und was ist mit dem Neuesten? o3-Veröffentlichung?

Modell o3 CO₂-Produktion. Quelle.

💡Hinweis: Verfolgen Sie nicht den Hype. Berechnen Sie vor der Bewältigung der Aufgabe die Kosten für die Nutzung von APIs oder eigenen Servern. Denken Sie über die Skalierung eines solchen Methods nach und darüber, wie gerechtfertigt der Einsatz von LLMs ist.

Nachdem wir uns nun mit den wirtschaftlichen Aspekten befasst haben, sprechen wir über die Qualität. Natürlich würden nur sehr wenige Menschen Kompromisse bei der Genauigkeit der Lösung eingehen wollen, nur um Kosten zu sparen. Aber auch hier haben SLMs einiges zu bieten.

Moderationsleistung innerhalb der Domäne. Vergleich der Leistung von SLMs mit LLMs hinsichtlich Genauigkeit, Rückruf und Präzision für die Leistung der domäneninternen Inhaltsmoderation. SLMs mit der besten Leistung übertreffen LLMs in Bezug auf Genauigkeit und Rückruf in allen Subreddits, während LLMs SLMs in Bezug auf Präzision übertreffen. Quelle.

Viele Studien zeigen, dass kleine Modelle bei hochspezialisierten Aufgaben nicht nur mit großen LLMs konkurrieren können, sondern diese oft sogar übertreffen. Schauen wir uns ein paar anschauliche Beispiele an:

  1. Medizin: Der Diabetica-7B-Modell (basierend auf Qwen2–7B) erreichte bei Diabetes-bezogenen Assessments eine Genauigkeit von 87,2 %, während GPT-4 79,17 % und Claude 3,5–80,13 % aufwies. Trotzdem ist Diabetica-7B Dutzende Male kleiner als GPT-4 und kann lokal auf einer Shopper-GPU ausgeführt werden.
  2. Rechtsbereich: Ein SLM mit nur 0,2B Parametern erreicht eine Genauigkeit von 77,2 % bei der Vertragsanalyse (GPT-4 – etwa 82,4 %). Darüber hinaus ist für Aufgaben wie die Identifizierung „unfairer“ Bedingungen in Nutzungsvereinbarungen die SLM übertrifft sogar GPT-3.5 und GPT-4 auf der F1-Metrik.
  3. Mathematische Aufgaben: Untersuchungen von Google DeepMind zeigen dass das Coaching eines kleinen Modells, Gemma2–9B, auf Daten, die von einem anderen kleinen Modell generiert wurden, bessere Ergebnisse liefert als das Coaching auf Daten des größeren Gemma2–27B. Kleinere Modelle neigen dazu, sich besser auf Einzelheiten zu konzentrieren, ohne die Tendenz, „mit all dem Wissen zu glänzen“, was bei größeren Modellen häufig der Fall ist.
  4. Inhaltsmoderation: LLaMA 3.1 8B übertraf die Leistung GPT-3,5 in Bezug auf Genauigkeit (um 11,5 %) und Erinnerung (um 25,7 %) bei der Moderation von Inhalten in 15 beliebten Subreddits. Dies wurde sogar mit 4-Bit-Quantisierung erreichtwas die Größe des Modells weiter reduziert.
Vergleich von anweisungsabgestimmten Domänen-SLMs für Qualitätssicherung und LLMs auf PubMedQA. Quelle.

Ich gehe noch einen Schritt weiter und teile mit, dass selbst klassische NLP-Ansätze oft überraschend intestine funktionieren. Lassen Sie mich einen persönlichen Fall erzählen: Ich arbeite an einem Produkt zur psychologischen Unterstützung, bei dem wir täglich über tausend Nachrichten von Benutzern verarbeiten. Sie können in einem Chat schreiben und eine Antwort erhalten. Jede Nachricht wird zunächst in eine von vier Kategorien eingeteilt:

Von admin

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert