rStar2-Agent 归档

2025-09-02

14B打败671B，微软rStar2-Agent在数学推理上超过DeepSeek-R1

现在，LLM 已经可以获得非常强大的推理能力，而其中关键便是测试时扩展（test-time scaling）。通常而言，延长思维链（CoT）就可以延长「思考时间」，从而显著提升性能，尤其是当使用大规模强化学习和可验证奖励 (RLVR) 进行优化时。然而，对于容易出现细微中间错误或需要创...