Sehr genaue 2-Bit-Quantisierung für das Ausführen von 70B LLMs auf einer 24-GB-GPU

Erzeugt mit chatgpt

Jüngste Entwicklungen bei der Quantisierung mit niedriger Bit für LLMs wie AQLM und Autoround zeigen nun akzeptable Abbauwerte bei nachgeschalteten Aufgaben, insbesondere für große Modelle. Die 2-Bit-Quantisierung führt jedoch in den meisten Fällen immer noch auf einen spürbaren Genauigkeitsverlust.

Ein vielversprechender Algorithmus für die Quantisierung mit niedriger Bit ist Vptq (MIT -Lizenz), vorgeschlagen von Microsoft. Es wurde im Oktober 2024 eingeführt und hat seitdem eine hervorragende Leistung und Effizienz bei der Quantisierung großer Modelle gezeigt.

In diesem Artikel werden wir:

  1. Überprüfen Sie den VPTQ -Quantisierungsalgorithmus.
  2. Zeigen Sie, wie VPTQ -Modelle verwendet werden, von denen viele bereits verfügbar sind. Zum Beispiel können wir leicht niedrige Varianten von Lama 3.3 70b, Lama 3.1 405b und Qwen2.5 72b finden.
  3. Bewerten Sie diese Modelle und diskutieren Sie die Ergebnisse, um zu verstehen, wann VPTQ -Modelle eine gute Wahl für LLMs in der Produktion sein können.

Bemerkenswerterweise erreicht die 2-Bit-Quantisierung mit VPTQ die Leistung quick mit dem ursprünglichen 16-Bit-Modell für Aufgaben wie MMLU. Darüber hinaus ermöglicht es das Ausführen von LLAMA 3.1 405B auf einer einzelnen GPU, während weniger Speicher als ein 70B -Modell verwendet wird!

Von admin

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert