Die „Early Expertise“ von Meta AI schult Sprachagenten ohne Belohnungen – und übertrifft Imitationslernen
Wie würde sich Ihr Agenten-Stack verändern, wenn eine Richtlinie ausschließlich anhand ihrer eigenen ergebnisorientierten Rollouts trainieren könnte – keine Belohnungen, keine Demos – und dennoch das Nachahmungslernen in acht Benchmarks…