Sunnyvale, CA-8. Mai 2025-Rafay Techniques, ein Cloud-nativer und KI-Infrastruktur-Orchestrierungs- und -managementunternehmen, kündigte die allgemeine Verfügbarkeit des serverlosen Inferenzangebots des Unternehmens an, eine mit Token-Metered-Meteraden für den Betrieb von Open-Supply und privat ausgebildete oder abgestimmte LLMs.
Das Unternehmen sagte, dass viele NVIDIA Cloud-Anbieter (NCPs) und GPU-Wolken bereits die Rafay-Plattform nutzen, um ihren Kunden ein Erlebnis mit mehreren Mandanten mit Plattform-AS-A-Service zu liefern. Diese NCPS- und GPU-Clouds können nun serverlosen Inferenz als schlüsselfertiger Service ohne zusätzliche Kosten liefern, sodass ihre Kunden KI-Anwendungen schnell erstellen und skalieren können, ohne die Kosten und Komplexität der Automatisierung, Governance und Steuerungen für GPU-basierte Infrastruktur zu erstellen.
The World AI inference market is predicted to develop to $106 billion in 2025, and $254 billion by 2030. Rafay’s Serverless Inference empowers GPU Cloud Suppliers (GPU Clouds) and NCPs to faucet into the booming GenAI market by eliminating key adoption obstacles—automated provisioning and segmentation of complicated infrastructure, developer self-service, quickly launching new GenAI fashions as a service, Generieren von Abrechnungsdaten für die Verwendung von On-Demand und vielem mehr.
“Having spent the final yr experimenting with GenAI, many enterprises at the moment are targeted on constructing agentic AI functions that increase and improve their enterprise choices. The power to quickly devour GenAI fashions by means of inference endpoints is vital to sooner improvement of GenAI capabilities. That is the place Rafay’s NCP and GPU Cloud companions have a fabric benefit,” stated Haseeb Budhani, CEO and co-founder of Rafay -Systeme.
„Mit unserem neuen serverlosen Inferenzangebot, das NCPS und GPU-Wolken kostenlos zur Verfügung stellt, können unsere Kunden und Companion ihren Kunden nun einen Amazon-, Bedrock-ähnlichen Service anbieten, um den Zugang zu den neuesten Genai-Modellen skalierbar, sicher und kostengünstig zugänglich zu machen. Entwickler und Unternehmen können nun die Arbeiten von Genai in den Vorzügen in den Vorzügen in den Vorzügen in den Vorzügen in den Vorzügen in den Vorzügen in den Vorzügen in den Vorzügen in den Vorzügen in den Vorzügen. NCPS und GPU-Wolken entwickeln sich von den Betrieb von GPU-AS-A-Service-Unternehmen bis zu AI-AS-A-Service-Unternehmen. “
Durch das Angebot von serverlosen Inferenz als On-Demand-Fähigkeit für nachgeschaltete Kunden hilft Rafay NCPS und GPU-Clouds, eine Schlüssellücke im Markt zu erreichen. Das serverlose Inferenzangebot von Rafay bietet die folgenden wichtigen Funktionen für NCPS- und GPU -Clouds:
-
Seamless Developer Integration: OpenAI-kompatible APIs erfordern für vorhandene Anwendungen keine Code-Migration, mit sicheren Rastful- und Streaming-fertigen Endpunkten, die Zeit-zu-Wert-Wert für Endkunden dramatisch beschleunigen.
-
Intelligente Infrastrukturmanagement: automatische Skalierung von GPU-Knoten mit rechtsgroßen Modellzuweisungsfunktionen optimieren die Ressourcen dynamisch über mehrere Mieter und dedizierte Isolationsoptionen hinweg, wodurch überprovisioniert werden und gleichzeitig strikte Leistungs-SLAs aufrechterhalten werden.
-
Eingebaute Messung und Abrechnung: Token-basierte und zeitbasierte Nutzungsverfolgung sowohl für Eingaben als auch für die Ausgabe liefert eine detaillierte Analyse des Verbrauchs, wobei Sie sich durch umfassende Mess-APIs in bestehende Abrechnungsplattformen integrieren und transparente, konsumbasierte Preismodelle ermöglichen.
-
Sicherheit und Governance von Unternehmensqualität: umfassender Schutz durch nur HTTPS-API-Endpunkte, rotierende Bearer-Token-Authentifizierung, detaillierte Zugriffsprotokollierung und konfigurierbare Token-Quotas professional Workforce, Geschäftseinheit oder Anwendung erfüllen die Anforderungen der Unternehmenskonformität.
-
Beobachtbarkeit, Speicherung und Leistungsüberwachung: Finish-to-Finish-Sichtbarkeit mit Protokollen und Metriken, die im eigenen Speicher-Namespace des Anbieters archiviert sind, Unterstützung für Backends wie Minio-eine Hochleistungs-S3-kompatible Objektspeichersystem und WEKA-A-Hochleistungs-AWS-S3-Datenplattform. sowie ein zentrales Anmeldeinformationsmanagement sorgen für eine vollständige Transparenz von Infrastruktur und Modellleistung.
Das serverlose Inferenzangebot von Rafay ist heute allen Kunden und Partnern verfügbar, die die Rafay-Plattform verwenden, um die Infrastruktur mit Multi-Tenant, GPU und CPU zu liefern. Das Unternehmen wird auch in Kürze Feinabstimmungsfunktionen einführen. Diese neuen Ergänzungen sollen NCPS und GPU-Wolken helfen, schnell mit hohem Margen, produktionsbereiteten KI-Diensten und der Komplexität auszurotten.