So skalieren Sie Ihre LLM-Nutzung

warfare mit der Veröffentlichung von ChatGPT vielleicht das wichtigste Wort, wenn es um Giant Language Fashions (LLMs) geht. ChatGPT warfare vor allem aufgrund der Skalierung so erfolgreich Vorschulung OpenAI hat dies getan und es zu einem leistungsstarken Sprachmodell gemacht.

Anschließend begannen die Labore von Frontier LLM mit der Skalierung nach der Ausbildung, mit überwachter Feinabstimmung und RLHF, bei dem die Modelle immer besser darin wurden, Anweisungen zu befolgen und komplexe Aufgaben auszuführen.

Und gerade als wir dachten, dass die LLMs bald ein Plateau erreichen würden, fingen wir an Inferenzzeitskalierung mit der Veröffentlichung von Argumentationsmodellen, wo Ausgaben Denkmarken hat die Qualität der Ergebnisse enorm verbessert.

Infografik: Skalierung der LLM-Nutzung — Diese Infografik hebt die Hauptinhalte dieses Artikels hervor. Ich werde zunächst besprechen, warum Sie Ihre LLM-Nutzung skalieren sollten, und hervorheben, wie dies zu einer gesteigerten Produktivität führen kann. Anschließend erläutere ich, wie Sie Ihre LLM-Nutzung steigern können, und behandle dabei Techniken wie die Ausführung paralleler Coding-Brokers und die Verwendung des Deep-Analysis-Modus in Gemini 3 Professional. Bild von Gemini

Ich plädiere nun dafür, dass wir diese Skalierung mit einem neuen Skalierungsparadigma fortsetzen sollten: nutzungsbasierte Skalierungwo Sie skalieren, wie oft Sie LLMs verwenden:

Führen Sie mehrere Coding-Brokers parallel aus
Beginnen Sie immer mit einer gründlichen Recherche zu einem Thema, das Sie interessiert
Führen Sie Workflows zum Abrufen von Informationen aus

Wenn Sie nicht vor dem Mittagessen oder dem Schlafengehen einen Agenten entlassen, verschwenden Sie Zeit

In diesem Artikel werde ich diskutieren, warum die Skalierung der LLM-Nutzung zu einer gesteigerten Produktivität führen kann, insbesondere wenn man als Programmierer arbeitet. Darüber hinaus bespreche ich spezifische Techniken, mit denen Sie Ihre LLM-Nutzung sowohl persönlich als auch für Unternehmen, für die Sie arbeiten, skalieren können. Ich werde diesen Artikel auf einem hohen Niveau halten und Ihnen Anregungen geben, wie Sie KI maximal zu Ihrem Vorteil nutzen können.

Warum Sie die LLM-Nutzung skalieren sollten

Wir haben bereits zuvor gesehen, dass die Skalierung unglaublich leistungsfähig ist:

Vorschulung
nach der Ausbildung
Inferenzzeitskalierung

Der Grund dafür ist, dass sich herausstellt, dass die Ausgabequalität umso besser ist, je mehr Rechenleistung Sie für etwas aufwenden. Dies setzt natürlich voraus, dass Sie den Pc effektiv nutzen können. Bei der Vorschulung kommt es beispielsweise darauf an, in der Lage zu sein, die Datenverarbeitung zu skalieren

Ausreichend große Modelle (genügend Gewichte zum Trainieren)
Genügend Daten zum Trainieren

Wenn Sie die Datenverarbeitung ohne diese beiden Komponenten skalieren, werden Sie keine Verbesserungen feststellen. Wenn Sie jedoch alle drei skalieren, erhalten Sie erstaunliche Ergebnisse, wie die Grenz-LLMs, die wir jetzt sehen, zum Beispiel mit der Veröffentlichung von Gemini 3.

Ich bin daher der Meinung, dass Sie versuchen sollten, Ihre eigene LLM-Nutzung so weit wie möglich zu skalieren. Dies könnte beispielsweise darin bestehen, mehrere Agenten zu beauftragen, parallel zu programmieren, oder Gemini mit einer umfassenden Recherche zu einem Thema zu beginnen, das Sie interessiert.

Natürlich muss die Nutzung dennoch einen Wert haben. Es macht keinen Sinn, einen Programmieragenten mit einer obskuren Aufgabe zu starten, die Sie nicht benötigen. Stattdessen sollten Sie einen Codierungsagenten starten auf:

Ein lineares Drawback, bei dem Sie nie das Gefühl hatten, Zeit zu haben, sich hinzusetzen und es selbst zu erledigen
Im letzten Verkaufsgespräch wurde eine schnelle Funktion gewünscht
Einige UI-Verbesserungen lassen sich mit den heutigen Programmieragenten problemlos bewältigen

Dieses Bild zeigt Skalierungsgesetze und zeigt, wie wir mit zunehmender Skalierung eine höhere Leistung erzielen können. Ich behaupte, dass dasselbe passieren wird, wenn wir unsere LLM-Nutzung skalieren. Bild von NodeMasters.

In einer Welt voller Ressourcen sollten wir versuchen, sie optimum zu nutzen

Mein Hauptpunkt hier ist, dass die Schwelle zur Ausführung von Aufgaben seit der Veröffentlichung von LLMs erheblich gesunken ist. Wenn man früher einen Fehlerbericht erhielt, musste man sich zwei Stunden lang konzentriert hinsetzen und darüber nachdenken, wie man den Fehler beheben konnte.

Heute ist das jedoch nicht mehr der Fall. Stattdessen können Sie zu Cursor gehen, den Fehlerbericht eingeben und Claude Sonnet 4.5 bitten, zu versuchen, das Drawback zu beheben. Sie können dann 10 Minuten später zurückkommen, testen, ob das Drawback behoben ist, und die Pull-Anfrage erstellen.

Wie viele Token können Sie ausgeben, während Sie mit den Token noch etwas Nützliches tun?

So skalieren Sie die LLM-Nutzung

Ich habe darüber gesprochen, warum Sie die LLM-Nutzung skalieren sollten, indem Sie mehr Coding-Brokers, Deep-Analysis-Brokers und andere KI-Brokers ausführen. Es kann jedoch schwierig sein, sich genau vorzustellen, welche LLMs Sie absolvieren sollten. Daher bespreche ich in diesem Abschnitt bestimmte Agenten, die Sie einsetzen können, um Ihre LLM-Nutzung zu skalieren.

Parallele Codierungsagenten

Parallele Codierungsagenten sind für jeden Programmierer eine der einfachsten Möglichkeiten, die LLM-Nutzung zu skalieren. Anstatt jeweils nur an einem Drawback zu arbeiten, starten Sie zwei oder mehr Agenten gleichzeitig, entweder mithilfe von Cursor-Agenten, Claude-Code oder einem anderen Agenten-Codierungstool. Dies lässt sich in der Regel sehr einfach durch die Verwendung von Git-Arbeitsbäumen bewerkstelligen.

Beispielsweise habe ich normalerweise eine Hauptaufgabe oder ein Hauptprojekt, an dem ich arbeite, wobei ich im Cursor sitze und programmiere. Manchmal erhalte ich jedoch einen Fehlerbericht, den ich automatisch an Claude Code weiterleite, damit dieser nach der Ursache des Issues sucht und ihn wenn möglich behebt. Manchmal funktioniert das sofort; Manchmal muss ich ein bisschen nachhelfen.

Allerdings sind die Kosten für den Begin dieses Fehlerbehebungsagenten äußerst niedrig (ich kann das Linear-Drawback buchstäblich einfach in Cursor kopieren, der das Drawback mit Linear MCP lesen kann). Ebenso habe ich ein Skript, das automatisch nach relevanten Interessenten recherchiert und das ich im Hintergrund laufen lasse.

Tiefgründige Recherche

Deep Analysis ist eine Funktion, die Sie bei allen Frontier-Modellanbietern wie Google Gemini, OpenAI ChatGPT und Claude von Anthropic nutzen können. Ich bevorzuge Gemini 3 Deep Analysis, obwohl es viele andere solide Deep Analysis-Instruments gibt.

Immer wenn ich daran interessiert bin, mehr über ein Thema zu erfahren, Informationen zu finden oder Ähnliches, feuere ich mit Gemini einen Deep-Recherche-Agenten an.

Ich warfare zum Beispiel daran interessiert, Interessenten mit einem bestimmten ICP zu finden. Dann habe ich die ICP-Informationen schnell in Gemini eingefügt, ihm einige Kontextinformationen gegeben und es mit der Recherche beginnen lassen, damit es laufen konnte, während ich an meinem Hauptprogrammierprojekt arbeitete.

Nach 20 Minuten erhielt ich einen kurzen Bericht von Gemini, der jede Menge nützliche Informationen enthielt.

Workflows mit n8n erstellen

Eine weitere Möglichkeit, die LLM-Nutzung zu skalieren, besteht darin, Workflows mit n8n oder einem ähnlichen Device zur Workflow-Erstellung zu erstellen. Mit n8n können Sie spezifische Workflows erstellen, die beispielsweise Slack-Nachrichten lesen und auf der Grundlage dieser Slack-Nachrichten bestimmte Aktionen ausführen.

Sie könnten beispielsweise einen Workflow haben, der eine Fehlerberichtsgruppe auf Slack liest und automatisch einen Claude-Code-Agenten für einen bestimmten Fehlerbericht startet. Oder Sie könnten einen anderen Workflow erstellen, der Informationen aus vielen verschiedenen Quellen zusammenfasst und Ihnen in einem leicht lesbaren Format bereitstellt. Es gibt im Grunde endlose Möglichkeiten mit Instruments zur Workflow-Erstellung.

Mehr

Es gibt viele andere Techniken, mit denen Sie Ihre LLM-Nutzung skalieren können. Ich habe nur die ersten paar Dinge aufgelistet, die mir bei der Arbeit mit LLMs in den Sinn kamen. Ich empfehle, immer im Hinterkopf zu behalten, was Sie mithilfe von KI automatisieren können und wie Sie sie nutzen können, um effektiver zu werden. Die Skalierung der LLM-Nutzung kann je nach Unternehmen, Berufsbezeichnung und vielen anderen Faktoren stark variieren.

Abschluss

In diesem Artikel habe ich besprochen, wie Sie Ihre LLM-Nutzung skalieren können, um ein effektiverer Ingenieur zu werden. Ich behaupte, dass die Skalierung in der Vergangenheit unglaublich intestine funktioniert hat, und es ist sehr wahrscheinlich, dass wir immer wirkungsvollere Ergebnisse erzielen können, wenn wir unsere eigene Nutzung von LLMs skalieren. Dies könnte darin bestehen, parallel mehr Coding-Agenten abzufeuern und während des Mittagessens Deep-Analysis-Agenten laufen zu lassen. Generell glaube ich, dass wir durch die Steigerung unserer LLM-Nutzung produktiver werden können.

👉 Finden Sie mich in den sozialen Netzwerken:

📚 Holen Sie sich mein kostenloses E-E book „Imaginative and prescient Language Fashions“.

💻 Mein Webinar zum Thema Imaginative and prescient Language Fashions

📩 Abonnieren Sie meinen E-newsletter

🧑‍💻 Nehmen Sie Kontakt auf

🔗 LinkedIn

🐦 X / Twitter

✍️ Medium

So skalieren Sie Ihre LLM-Nutzung

Warum Sie die LLM-Nutzung skalieren sollten

So skalieren Sie die LLM-Nutzung

Parallele Codierungsagenten

Tiefgründige Recherche

Workflows mit n8n erstellen

Mehr

Abschluss

Von admin

Schreibe einen Kommentar Antworten abbrechen

Versäumt

Ein Leitfaden zu OpenRouter für die KI-Entwicklung

So überprüfen Sie die Claude-Code-Ausgabe effektiv

Überblick über den Standing des Agent Engineering-Berichts

OpenClaw erklärt: Das kostenlose AI-Agent-Instrument wird bereits im Jahr 2026 viral

About

Categories

Tags

Recent Post

Ein Leitfaden zu OpenRouter für die KI-Entwicklung

So überprüfen Sie die Claude-Code-Ausgabe effektiv

Warum Sie die LLM-Nutzung skalieren sollten

So skalieren Sie die LLM-Nutzung

Parallele Codierungsagenten

Tiefgründige Recherche

Workflows mit n8n erstellen

Mehr

Abschluss

Von admin

Ähnlicher Beitrag

Schreibe einen Kommentar Antworten abbrechen

Versäumt