Microsoft

Microsoft veröffentlicht Agent Lightning: Ein neues KI-Framework, das das auf Reinforcement Studying (RL) basierende Coaching von LLMs für jeden KI-Agenten ermöglicht

Wie wandeln Sie echte Agentenverfolgungen in Reinforcement Studying RL-Übergänge um, um Richtlinien-LLMs zu verbessern, ohne Ihren bestehenden Agentenstapel zu ändern? Veröffentlichungen des Microsoft AI-Groups Agent Lightning zur Optimierung von Multiagentensystemen.…

Microsoft AI führt RSTAR2-Agent ein: Ein 14B-Modell für Mathematik-Argumentation, das mit Agentenverstärkungslernen ausgebildet ist, um die Leistung von Grenzebene zu erzielen

Das Drawback mit „länger denken“ Großsprachenmodelle haben beeindruckende Fortschritte beim mathematischen Denken gemacht, indem sie ihre Kettenprozesse (COT) (COT) erweitert-im Wesentlichen „länger durch detailliertere Argumentationsschritte denken“. Dieser Ansatz hat jedoch…