2-Bit VPTQ: 6,5-fache kleinere LLMs und gleichzeitig 95% Genauigkeit beibehalten
Sehr genaue 2-Bit-Quantisierung für das Ausführen von 70B LLMs auf einer 24-GB-GPU Erzeugt mit chatgpt Jüngste Entwicklungen bei der Quantisierung mit niedriger Bit für LLMs wie AQLM und Autoround zeigen…