Reason in Chains, Learn in Trees: Self-Rectification and Grafting for Multi-turn Agent Policy Optimization

This research introduces T-STAR, a novel framework designed to solve sparse reward challenges in multi-step reasoning for Large Language Model agents through...

Level: advanced

By Yu Li

Category: research