Kombination großer und kleiner LLMs zur Steigerung von Inferenzzeit und -qualität | von Richa Gadgil | Dez. 2024
Implementierung spekulativer und kontrastiver Dekodierung Große Sprachmodelle bestehen aus Milliarden von Parametern (Gewichten). Für jedes Wort, das es generiert, muss das Modell rechenintensive Berechnungen für alle diese Parameter durchführen. Große…