Wenn Transformatoren singen: Anpassung von SpectralKD für die textbasierte Wissensdestillation
Während ich an meinem Wissensdestillationsproblem zur Absichtsklassifizierung arbeitete, stand ich vor einer rätselhaften Hürde. Mein Aufbau umfasste ein Lehrermodell, das RoBERTa-groß ist (fein abgestimmt auf meine Absichtsklassifizierung), und ein Schülermodell,…