Heute kündigte MLCommons neue Ergebnisse für seine MLPerf Inference V5.1 Benchmark Suite an und verfolgte die Dynamik der KI -Group und ihre neuen Funktionen, Modelle sowie {Hardware}- und Softwaresysteme.

Besuchen Sie die Ergebnisse für MLPerf Inference V5.1, um die Ergebnisse zu erhalten Rechenzentrum Und Rand Benchmark -Ergebnisseiten.

Die MLPERF -Inferenz -Benchmark -Suite soll messen, wie schnell Systeme KI -Modelle für eine Vielzahl von Workloads ausführen können. Die Open-Supply- und Peer-Overview-Suite führt die Systemleistung für die Systemleistung auf architekturneutrale, repräsentative und reproduzierbare Weise durch, wodurch ein ebenes Wettbewerb für Wettbewerb geschaffen wird, das Innovation, Leistung und Energieeffizienz für die gesamte Branche fördert. Es bietet kritische technische Informationen für Kunden, die KI -Systeme beschaffen und abstellen.

Diese Runde der MLPERF-Inferenzergebnisse legt einen Datensatz für die Anzahl der Teilnehmer fest, die Systeme für Benchmarking bei 27 einreichen. Zu diesen Einreichungen gehören Systeme mit fünf neu verfügbaren Prozessoren und verbesserten Versionen von AI-Software program-Frameworks. Die V5.1 Suite führt drei neue Benchmarks ein, die die KI -Systeme weiter herausfordern, um ihren Höhepunkt gegen moderne Arbeitsbelastungen zu erzielen.

„Das Tempo der Innovation in der KI ist atemberaubend“, sagte Scott Wasson, Direktor für Produktmanagement bei MLCommons. „Die Arbeitsgruppe MLPERF Inference hat aggressiv neue Benchmarks aufgebaut, um mit diesem Fortschritt Schritt zu halten. Infolgedessen 5.1 verfügt über mehrere neue Benchmark-Exams, einschließlich Deepseek-R1 mit Argumentation und interaktive Szenarien mit strengeren Latenzanforderungen für einige LLM-basierte Exams. In der Zwischenzeit haben die Einsendungen von MLPERF-Inferenz.

Lama 2 70b Genai Check

Der Lama 2 70B -Benchmark ist weiterhin der beliebteste Benchmark in der Suite mit 24 Einsendungen in dieser Runde.

Es gibt auch ein klares Bild von der Gesamtleistung der Leistungsverbesserung in KI -Systemen im Laufe der Zeit. In einigen Szenarien verbesserte sich die am besten leistungsstarken Systeme um bis zu 50% gegenüber dem besten System in der 5.0 -Model vor nur sechs Monaten. In dieser Runde wurde ein weiteres zuerst vorhanden: eine Einreichung eines heterogenen Programs, das Software program zum Laden einer Inferenzarbeit über verschiedene Arten von Beschleunigern lädt.

Als Reaktion auf die Nachfrage der Group erweitert diese Runde das in der vorherigen Model eingeführte interaktive Szenario, in dem die Leistung unter niedrigeren Latenzbeschränkungen wie für Agenten und andere Anwendungen von LLMs erforderlich ist. Die interaktiven Szenarien, die jetzt für mehrere Modelle getestet wurden, waren in Model 5.1 eine robuste Teilnahme von Einsendern.

Drei neue Exams eingeführt

MLPerf Inference V5.1 führt in die Suite drei neue Benchmarks ein: Deepseek-R1; Lama 3.1 8b; und flüster groß v3.

Deepseek R1 ist das erste „Argumentationsmodell“, das der Suite hinzugefügt wird. Argumentationsmodelle sollen herausfordernde Aufgaben angehen und einen mehrstufigen Prozess verwenden, um Probleme in kleinere Teile zu zerlegen, um Antworten von höherer Qualität zu erzielen. Die Workload im Check enthält Eingabeaufforderungen aus fünf Datensätzen, die sich mit Mathematikproblemlösungen, allgemeinen Fragenbeantwortung und Codegenerierung befassen.

„Argumentationsmodelle sind ein aufstrebender und wichtiger Bereich für KI-Modelle mit ihrem eigenen einzigartigen Verarbeitungsmuster“, sagte Miro Hodak, Co-Vorsitzender der Arbeitsgruppe MLPerf Inference. „Es ist wichtig, echte Daten zu haben, um zu verstehen, wie Argumentationsmodelle auf vorhandenen und neuen Systemen abschneiden, und Mlcommons tritt auf, um diese Daten bereitzustellen. Und es ist ebenso wichtig, die aktuellen Systeme gründlich zu testen, damit wir ihre Grenzen erlernen. Deepseek R1 erhöht das Schwierigkeitsgrad der Benchmark-Suite und gibt uns neue und wertvolle Informationen.“

Weitere Informationen zum Deepseek R1 -Benchmark finden Sie Hier.

LAMA 3.1 8B ist ein kleineres LLM, das für Aufgaben wie die Textübersicht sowohl in Datencenter als auch in den Kantenszenarien nützlich ist. Mit der Inferenz 5.1-Veröffentlichung ersetzt dieses Modell eine ältere (GPT-J), behält jedoch denselben Datensatz bei und führt die gleiche Benchmark-Aufgabe durch, jedoch mit einem zeitgemäßeren Modell, das den aktuellen Stand der Technik besser widerspiegelt. LLAMA 3.1 8B verwendet eine große Kontextlänge von 128.000 Token, während GPT-J nur 2048 verwendete. Der Check verwendet den CNN-DailyMail-Datensatz, zu den beliebtesten öffentlich zugänglichen öffentlich zugänglichen für Textübersichtsaufgaben. Der Lama 3.1 8B -Benchmark unterstützt sowohl Rechenzentrum als auch Edge -Systeme mit jeweils benutzerdefinierten Workloads.

Weitere Informationen zum Lama 3.1 8B -Benchmark finden Sie Hier.

Whisper Giant V3 ist ein Open-Supply-Spracherkennungsmodell, das auf einer Transformator-basierten Encoder-Decoder-Architektur basiert. Es verfügt über eine hohe Genauigkeit und mehrsprachige Fähigkeiten in einer Vielzahl von Aufgaben, einschließlich Transkription und Übersetzung. Für den Benchmark -Check wird es mit einer modifizierten Model des Librispeech -Audio -Datensatzes kombiniert. Der Benchmark unterstützt sowohl Rechenzentrum als auch Edge -Systeme.

„MLPerf-Inferenz-Benchmarks sind dwell und entwickelt, um den Stand des KI-Einsatzes in der gesamten Branche zu erfassen“, sagte Frank Han, Co-Vorsitzender der MLPerf-Inferenzarbeitsgruppe. „Diese Runde fügt ein Sprach-zu-Textual content-Modell hinzu, das die Notwendigkeit widerspiegelt, über große Sprachmodelle hinaus zu bewerten. Spracherkennung kombiniert Sprachmodellierung mit zusätzlichen Stufen wie akustischer Merkmalextraktion und Segmentierung, Erweiterung des Leistungsprofils und Stresssystemaspekte wie Speicherbandbreite, Latenz und Durchsatz.

Weitere Informationen zum Whisper Giant V3 -Benchmark finden Sie Hier.

The MLPerf Inference 5.1 benchmark obtained submissions from a complete of 27 collaborating organizations: AMD, ASUSTek, Azure, Broadcom, Cisco, Coreweave, Dell, GATEOverflow, GigaComputing, Google, Hewlett Packard Enterprise, Intel, KRAI, Lambda, Lenovo, MangoBoost, MiTac, Nebius, NVIDIA, Oracle, Quanta Cloud Technologie, Crimson Hat Inc, Single -Einreicher: Amitash Nanda, Supermicro, TheStage AI, College of Florida und Vultr.

Die Ergebnisse umfassten Exams für fünf neu verfügbare Beschleuniger:

  • AMD Intuition Mi355X
  • Intel ARC Professional B60 48 GB Turbo
  • Nvidia GB300
  • NVIDIA RTX 4000 ADA-PCIE-20 GB
  • Nvidia RTX Professional 6000 Blackwell Server Version

„Dies ist eine so aufregende Zeit, in der KI -Group zu arbeiten“, sagte David Kanter, Leiter von MLPerf bei Mlcommons. „Zwischen dem atemberaubenden Tempo der Innovation und dem robusten Fluss neuer Teilnehmer haben Stakeholder, die Systeme beschaffen, mehr als je zuvor. Unsere Mission mit dem MLPERF-Inferenz-Benchmark ist es, ihnen zu helfen, intestine informierte Entscheidungen zu treffen, und die Verwendung vertrauenswürdiger, relevanter Leistungsdaten für die Workloads, die sie am meisten für das Feld AI-Aufenthalt einsetzen. Sogar mehr.

Kanter fuhr fort: „Wir möchten unsere neuen Einreicher für Model 5.1 begrüßen: Mitac, Nebius, Single -Einreicher: Amitash Nanda, TheStage AI, College of Florida und Vultr. Ich möchte besonders gerne unsere beiden Teilnehmer hervorheben. Benchmarks.

MlCommons ist der weltweit führende Anführer für KI -Benchmarking. Ein offenes Engineering -Konsortium, das von über 125 Mitgliedern und verbundenen Unternehmen unterstützt wird, hat Mlcommons nachweislich nachweislich die Zusammenarbeit mit Wissenschaft, Industrie und Zivilgesellschaft, um die KI zu messen und zu verbessern. Die Stiftung für MLCommons begann 2018 mit den MLPERF -Benchmarks, die schnell als eine Reihe von Branchenmetriken skaliert wurden, um die Leistung des maschinellen Lernens zu messen und die Transparenz von Techniken des maschinellen Lernens zu fördern. Seitdem hat MLCommons weiterhin Kollektivtechnik verwendet, um die Benchmarks und Metriken zu erstellen, die für eine bessere KI erforderlich sind, was letztendlich dazu beiträgt, die Genauigkeit, Sicherheit, Geschwindigkeit und Effizienz von KI -Technologien zu bewerten und zu verbessern.



Von admin

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert