Jüngste Entwicklungen bei der Quantisierung mit niedriger Bit für LLMs wie AQLM und Autoround zeigen nun akzeptable Abbauwerte bei nachgeschalteten Aufgaben, insbesondere für große Modelle. Die 2-Bit-Quantisierung führt jedoch in den meisten Fällen immer noch auf einen spürbaren Genauigkeitsverlust.
Ein vielversprechender Algorithmus für die Quantisierung mit niedriger Bit ist Vptq (MIT -Lizenz), vorgeschlagen von Microsoft. Es wurde im Oktober 2024 eingeführt und hat seitdem eine hervorragende Leistung und Effizienz bei der Quantisierung großer Modelle gezeigt.
In diesem Artikel werden wir:
- Überprüfen Sie den VPTQ -Quantisierungsalgorithmus.
- Zeigen Sie, wie VPTQ -Modelle verwendet werden, von denen viele bereits verfügbar sind. Zum Beispiel können wir leicht niedrige Varianten von Lama 3.3 70b, Lama 3.1 405b und Qwen2.5 72b finden.
- Bewerten Sie diese Modelle und diskutieren Sie die Ergebnisse, um zu verstehen, wann VPTQ -Modelle eine gute Wahl für LLMs in der Produktion sein können.
Bemerkenswerterweise erreicht die 2-Bit-Quantisierung mit VPTQ die Leistung quick mit dem ursprünglichen 16-Bit-Modell für Aufgaben wie MMLU. Darüber hinaus ermöglicht es das Ausführen von LLAMA 3.1 405B auf einer einzelnen GPU, während weniger Speicher als ein 70B -Modell verwendet wird!