SUNNYVALE, CA-Meta hat sich mit Cerebras über KI-Inferenz in der neuen Lama-API von Meta zusammengetan und die Open-Supply-Lama-Modelle von Meta mit Inferenztechnologie von Cerebras kombiniert.
Entwickler, die auf dem Lama 4 Cerebras-Modell in der API aufbauen, können laut Cerebras Geschwindigkeiten bis zu 18-mal schneller als herkömmliche GPU-basierte Lösungen erwarten. „Diese Beschleunigung ermöglicht eine völlig neue Technology von Anwendungen, die nicht auf einer anderen Technologie aufbauen können. Konversation mit geringer Latenz, interaktiver Codegenerierung, sofortiger mehrstufiger Argumentation und Echtzeit-Agenten-alle erfordern mehrere LLM-Anrufe-können jetzt in Sekunden und nicht in Minuten abgeschlossen werden“, sagte Cerebras.
Durch Partnerschaft mit Meta Um Lama -Modellen aus dem neuen API -Service von Meta zu bedienen, erlangt Cerebras ein erweitertes Entwicklerpublikum und vertieft sein Geschäft und seine Partnerschaft mit Meta und ihren unglaublichen Groups.
Seit der Einführung seiner Inferenzlösungen im Jahr 2024 hat Cerebras die weltweit schnellste Lama -Inferenz geliefert und in einer eigenen KI -Infrastruktur Milliarden von Token bedient. Die breite Entwicklergemeinschaft hat jetzt einen direkten Zugang zu einer robusten Various der Openai-Klasse zum Aufbau intelligenter Echtzeitsysteme-unterstützt von Cerebras-Geschwindigkeit und -skala.
„Cerebras ist stolz darauf, die Lama-API zur schnellsten Inferenz-API der Welt zu machen“, sagte Andrew Feldman, CEO und Mitbegründer von Cerebras. „Entwickler, die Agenten und Echtzeit-Apps bauen, benötigen Geschwindigkeit. Mit Cerebras auf Lama-API können sie KI-Systeme erstellen, die grundlegend außerhalb der Reichweite für führende GPU-basierte Inferenzwolken sind.“
Cerebras ist die schnellste KI -Inferenzlösung, gemessen an der künstlichen Analyse der Benchmarking -Web site von Drittanbietern und erreicht über 2.600 Token/s für Lama 4 Scout im Vergleich zu Chatgpt bei ~ 130 Token/Sekunden und Deepseek bei ~ 25 Token/Sekunden.
Entwickler können auf die schnellste Lama 4 -Inferenz zugreifen, indem sie aus den Modelloptionen innerhalb der Lama -API Cerebras auswählen. Diese optimierte Erfahrung erleichtert die Prototypen, Erstellung und Skalierung von AI-Anwendungen in Echtzeit. Um sich für den frühen Zugang zur Lama -API zu melden und heute Cerebras -Geschwindigkeit zu erleben, besuchen Sie www.cerebras.ai/inference.
