Verstehen, dass man nur einmal cachen kann | von Matthew Gunton | Juni 2024
Um die hier vorgenommenen Änderungen zu verstehen, müssen wir zunächst den Key-Worth-Cache besprechen. Innerhalb des Transformators haben wir 3 Vektoren, die für die Funktion der Aufmerksamkeit entscheidend sind – Schlüssel,…