Tencent Hunyuan hat Open Supply HPC-Opseine produktionstaugliche Operatorbibliothek für Geräte mit großer Sprachmodell-Inferenzarchitektur. HPC-Ops konzentriert sich auf Low-Degree-CUDA-Kernel für Kernoperatoren wie Consideration, Grouped GEMM und Fused MoE und stellt sie über eine Compact-C- und Python-API zur Integration in bestehende Inferenz-Stacks bereit.

HPC-Ops wird in großen internen Diensten ausgeführt. In diesen Bereitstellungen liefert es eine Verbesserung von etwa 30 Prozent bei Abfragen professional Minute für Tencent-HY-Modelle und etwa 17 Prozent für DeepSeek-Modelle auf Mainstream-Inferenzkarten. Diese Gewinne werden auf Serviceebene gemeldet, sodass sie den kumulativen Effekt schnellerer Kernel innerhalb einer echten Inferenzpipeline widerspiegeln.

Umfang und Design von HPC-Ops

HPC-Ops ist eine produktionstaugliche, leistungsstarke und benutzerfreundliche Operatorbibliothek für LLM-Inferenz, die vom Tencent Hunyuan AI Infra-Workforce entwickelt wurde. Das Projekt versucht nicht, bedienende Frameworks zu ersetzen. Stattdessen stellt es Kernel und saubere APIs bereit, die von Systemen aufgerufen werden können, die bereits Zeitplanung, KV-Cache-Verwaltung, Stapelverarbeitung und Transport übernehmen.

Die API ist für den nahtlosen Einsatz in gängigen Inferenz-Frameworks wie vLLM und SGLang konzipiert. Das bedeutet, dass das Framework-Workforce HPC-Ops-Kernel hinter seinen eigenen Abstraktionen austauschen kann, ohne das externe Verhalten seiner Server zu ändern.

HPC-Ops verwendet C++ und CUDA mit CuTe und CUTLASS als Bausteine. Kernel werden als relativ kleine Beispiele geschrieben, die auch als modernes CUDA-Tutorial dienen.

Kernel-Leistungsmerkmale

Das Projekt veröffentlicht die maximal beobachteten Beschleunigungszahlen für jeden Betreiber im Verhältnis zu festgelegten Basiswerten. Hierbei handelt es sich um Mikrobenchmarks, und das Forschungsteam betont, dass die Leistung je nach Kind und Arbeitslast variiert, sie zeigen jedoch die Optimierungsobergrenze.

Für Consideration in bf16 meldet HPC Ops im Vergleich zu FlashInfer, FlashAttention Two, FlashAttention Three und TensorRT LLM eine bis zu 1,33-fache Beschleunigung beim Vorfüllen und eine bis zu 2,22-fache Beschleunigung beim Dekodieren. Für Consideration in fp8 werden im Vergleich zu FlashInfer, FlashAttention 3 und TensorRT LLM bis zu 1,12-mal beim Vorfüllen und bis zu 2,0-mal beim Dekodieren gemeldet.

Für FusedMoE fp8 beträgt die maximale beobachtete Geschwindigkeitssteigerung im Vergleich zu TensorRT LLM und vLLM das 1,49-fache beim Vorfüllen und das 1,14-fache beim Dekodieren. Für GroupGEMM fp8 betragen die gemeldeten Gewinne im Vergleich zu DeepGEMM das bis zu 1,1-fache beim Vorfüllen und das 1,88-fache beim Dekodieren.

Diese Zahlen sind wichtig, da die Dekodierung normalerweise den Latenzengpass bei der autoregressiven Generierung darstellt, wo die Batch-Größen schrumpfen und der Speicherverkehr dominiert. Die Tatsache, dass Consideration und GroupGEMM die größten relativen Zuwächse bei der Dekodierung aufweisen, legt nahe, dass sich HPC-Ops auf den Teil der Pipeline konzentriert, der den meisten Benutzern auffällt.

Unterstützte Kernel und Präzision

Die aktuelle Model gruppiert seine Funktionalität in drei Operatorfamilien:

  • Aufmerksamkeitskerne decken sowohl das Vorfüllen als auch das Dekodieren ab und bieten Unterstützung für ausgelagerte Aufmerksamkeit. Paged Consideration ist das Speicherlayout, das Frameworks wie vLLM verwenden, um Schlüssel- und Wert-Cache-Blöcke in einer ausgelagerten Struktur zu platzieren, was die Wiederverwendung von Speicher für lange Sequenzen verbessert.
  • Grouped GEMM wird als quantisiertes GroupGEMM mit fp8-Gewichten implementiert. HPC-Ops unterstützt blockweise und professional Tensor-Skalierung, sodass Groups die Quantisierungsgranularität gegen die Kosten für Parameterspeicherung und Kalibrierung abwägen können.
  • Fused-MoE kombiniert eine Mischung aus Expertenrouting und Expertenberechnung in einem einzigen quantisierten Operator. Es verwendet auch fp8-Expertengewichte und unterstützt blockweise und professional Tensor-Skalierungsstrategien.

In diesen Kerneln bietet HPC-Ops native Unterstützung für die Datentypen bf16 und fp8. Dies entspricht dem aktuellen Produktionstrend, die Inferenz auf Formate mit geringerer Präzision zu verlagern, die die Genauigkeit bewahren und gleichzeitig die Speicherbandbreite reduzieren und die Tensorkernauslastung verbessern.

Wichtige Erkenntnisse

  • Tencent Hunyuan hat HPC-Ops als Open-Supply-Operatorbibliothek für die LLM-Inferenz auf NVIDIA SM90-GPUs, einschließlich H20, mit auf CuTe und CUTLASS basierenden C++- und CUDA-Kerneln bereitgestellt.
  • Bei Produktionsbereitstellungen meldet HPC-Ops einen QPM-Gewinn von etwa 30 Prozent für Tencent-HY-Modelle und einen QPM-Gewinn von etwa 17 Prozent für DeepSeek-Modelle auf Mainstream-Inferenzkarten.
  • Operator-Mikrobenchmarks zeigen maximale Beschleunigungen bis zum 2,22-fachen für die bf16-Consideration-Dekodierung, bis zum 2,0-fachen für die fp8-Consideration-Dekodierung, bis zum 1,49-fachen für die fp8-FusedMoE-Vorfüllung und bis zum 1,88-fachen für die fp8-GroupGEMM-Dekodierung im Vergleich zu starken Baselines wie FlashInfer, FlashAttention, TensorRT LLM und DeepGEMM.
  • Die Bibliothek konzentriert sich auf drei Operatorfamilien: Consideration mit Unterstützung für seitige Aufmerksamkeit, quantisiertes GroupGEMM mit fp8-Gewichten und quantisiertes Fused MoE mit fp8-Expertengewichten, sowohl mit blockweiser als auch professional Tensor-Skalierung und nativer bf16-plus-fp8-Präzisionsunterstützung.
  • HPC-Ops ist als Operatorschicht konzipiert, die sich in bestehende Inferenz-Frameworks wie vLLM und SGLang integriert. Die Roadmap zielt auf eine geringe Aufmerksamkeit für LLMs mit langem Kontext, eine erweiterte Quantisierung einschließlich 4-Bit- und 8-Bit-Strategien und Kernel ab, die Berechnungen besser mit der Multi-GPU-Kommunikation überlappen.

Schauen Sie sich das an Repo hier. Sie können uns auch gerne weiter folgen Twitter und vergessen Sie nicht, bei uns mitzumachen 100.000+ ML SubReddit und Abonnieren Unser E-newsletter. Warten! Bist du im Telegram? Jetzt können Sie uns auch per Telegram kontaktieren.


Michal Sutter ist ein Information-Science-Experte mit einem Grasp of Science in Information Science von der Universität Padua. Mit einer soliden Grundlage in statistischer Analyse, maschinellem Lernen und Datentechnik ist Michal hervorragend darin, komplexe Datensätze in umsetzbare Erkenntnisse umzuwandeln.

Von admin

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert