Weak-for-Robust (W4S): Ein neuartiger Reinforcement-Studying-Algorithmus, der einen schwachen Meta-Agenten trainiert, Agenten-Workflows mit stärkeren LLMs zu entwerfen
Forscher aus Stanford, EPFL und UNC einführen Schwach-für-Stark-Gebäude, W4Sein neues Reinforcement Studying RL-Framework, das einen kleinen Meta-Agenten darin schult, Code-Workflows zu entwerfen und zu verfeinern, die ein stärkeres Executor-Modell aufrufen.…