Die Rolle von PPO in RLHF überdenken – Das Berkeley Synthetic Intelligence Analysis Weblog
Die Rolle von PPO bei RLHF überdenken Kurz zusammengefasst: Beim RLHF besteht eine Spannung zwischen der Belohnungslernphase, die menschliche Vorlieben in Type von Vergleichen nutzt, und der RL-Feinabstimmungsphase, die eine…