Bentoml hat kürzlich veröffentlicht LLM-Optimizerein Open-Supply-Framework, mit dem das Benchmarking und die Leistungsstimmung von selbst gehosteten Großsprachenmodellen (LLMs) optimiert werden sollen. Das Software befasst sich mit einer gemeinsamen Herausforderung in der LLM-Bereitstellung: Finden optimaler Konfigurationen für Latenz, Durchsatz und Kosten, ohne sich auf manuelle Testverhandlung zu verlassen.
Warum ist das Einstellen der LLM -Leistung schwierig?
Das Tuning -LLM -Inferenz ist ein Balancing -Akt über viele bewegliche Teile – eine Größe, eine Frameworkauswahl (VllM, Sglang usw.), eine Tensor -Parallelität, Sequenzlängen und wie intestine die {Hardware} verwendet wird. Jeder dieser Faktoren kann die Leistung auf unterschiedliche Weise verändern, wodurch die richtige Kombination für Geschwindigkeit, Effizienz und Kosten alles andere nicht einfach ist. Die meisten Groups verlassen sich immer noch auf sich wiederholende Exams für Versuch und Irrtümer, ein Prozess, der langsam, inkonsistent und oft nicht schlüssig ist. Für selbst gehostete Bereitstellungen sind die Kosten für das Gegenteil hoch: Schlecht abgestimmte Konfigurationen können schnell zu einer höheren Latenz- und verschwendeten GPU-Ressourcen führen.
Wie ist LLM-Optimizer anders?
LLM-Optimizer Bietet eine strukturierte Möglichkeit, die LLM -Leistungslandschaft zu erkunden. Es eliminiert sich wiederholende Vermutungen, indem es systematisches Benchmarking und automatisierte Suche über mögliche Konfigurationen übertrifft.
Zu den Kernfunktionen gehören:
- Ausführen standardisierter Exams über Inferenz -Frameworks wie VLLM und Sglang.
- Anwenden von Einschränkungen, z. B. nur Konfigurationen, bei denen die Zeit bis zum ersten Mal unter 200 ms liegt.
- Automatisieren von Parameter -Sweeps, um optimale Einstellungen zu identifizieren.
- Visualisieren von Kompromisse mit Dashboards für Latenz-, Durchsatz- und GPU -Nutzung.
Das Rahmen ist Open-Supply und verfügbar Github.
Wie können Entwickler Ergebnisse untersuchen, ohne Benchmarks vor Ort auszuführen?
Neben dem Optimierer veröffentlichte Bentoml die LLM Efficiency Explorereine von LLM-Optimizer betriebene Browser-basierte Schnittstelle. Es bietet vorbereitete Benchmark-Daten für beliebte Open-Supply-Modelle und kann Benutzer können:
- Vergleichen Sie Frameworks und Konfigurationen nebeneinander.
- Filter durch Latenz-, Durchsatz- oder Ressourcenschwellenwerte.
- Durchsuchen Sie Kompromisse interaktiv ohne {Hardware}.
Wie wirkt sich LLM-Optimizer auf die LLM-Bereitstellungspraktiken aus?
Wenn die Verwendung von LLMs wächst, hängt das Beste aus den Bereitstellungen heraus, wie intestine Inferenzparameter eingestellt sind. LLM-Optimizer senkt die Komplexität dieses Prozesses und ermöglicht kleineren Groups Zugang zu Optimierungstechniken, die einst große Infrastrukturen und tiefes Fachwissen erforderten.
Durch die Bereitstellung standardisierter Benchmarks und reproduzierbaren Ergebnisse verleiht der Rahmen den LLM-Raum dringend benötigte Transparenz. Es macht Vergleiche über Modelle und Rahmenbedingungen hinweg konsistenter und schließt eine langjährige Lücke in der Neighborhood.
Letztendlich verleiht der LLM-Optimizer von Bentoml eine einschränkende, mit Benchmark-fokussierte Methode zur selbst gehosteten LLM-Optimierung und ersetzt AD-hoc-Versuch und -fehler durch einen systematischen und wiederholbaren Workflow.
Schauen Sie sich das an Github -Seite. Fühlen Sie sich frei, unsere zu überprüfen Github -Seite für Tutorials, Codes und Notizbücher. Fühlen Sie sich auch frei, uns zu folgen Twitter Und vergessen Sie nicht, sich unserer anzuschließen 100k+ ml Subreddit und abonnieren Unser Publication.
Asif Razzaq ist der CEO von Marktechpost Media Inc. Sein jüngstes Bestreben ist die Einführung einer Medienplattform für künstliche Intelligenz, Marktechpost, die sich durch die ausführliche Berichterstattung über maschinelles Lernen und Deep-Studying-Nachrichten auszeichnet, die von einem breiten Publikum technisch intestine und leicht verständlich sind. Die Plattform verfügt über über 2 Millionen monatliche Ansichten und veranschaulicht ihre Beliebtheit des Publikums.
