Lernen Sie EAGLE 3.1 kennen: den spekulativen Dekodierungsalgorithmus, der die Aufmerksamkeitsdrift in der LLM-Inferenz behebt
Spekulative Dekodierung ist eine Technik zur Beschleunigung der Inferenz großer Sprachmodelle. Ein kleines, schnelles Entwurfsmodell schlägt mehrere Token vor. Das große Zielmodell verifiziert sie parallel. Wenn akzeptiert, erfolgt die Schlussfolgerung…