2025-09-02
14B打败671B,微软rStar2-Agent在数学推理上超过DeepSeek-R1
现在,LLM 已经可以获得非常强大的推理能力,而其中关键便是测试时扩展(test-time scaling)。 通常而言,延长思维链(CoT)就可以延长「思考时间」,从而显著提升性能,尤其是当使用大规模强化学习和可验证奖励 (RLVR) 进行优化时。 然而,对于容易出现细微中间错误或需要创...
你的专属IT资讯(IT News)
现在,LLM 已经可以获得非常强大的推理能力,而其中关键便是测试时扩展(test-time scaling)。 通常而言,延长思维链(CoT)就可以延长「思考时间」,从而显著提升性能,尤其是当使用大规模强化学习和可验证奖励 (RLVR) 进行优化时。 然而,对于容易出现细微中间错误或需要创...