微软全华班推出人rStar-Math算法，小型模型在数学推理上超越o1

新榜出品

发布时间：2025/01/11

新榜讯 1 月 10 日，微软亚洲研究院的全华班研究团队重磅推出 rStar-Math 算法，此创新推理方法大幅提高了小型语言模型（SLMs）处理数学问题的能力。

新榜讯 1 月 10 日，微软亚洲研究院的全华班研究团队重磅推出 rStar-Math 算法，此创新推理方法大幅提高了小型语言模型（SLMs）处理数学问题的能力。在 MATH 基准测试中，rStar-Math 让 Qwen2.5-Math-7B 模型的准确率由 58.8%飙升至 90.0%，成功超越 OpenAI 的 o1-preview 模型。据悉，该技术借助蒙特卡洛树搜索（MCTS）模拟人类的“深度思考”，还要求模型在输出时同步给出自然语言的推理步骤及 Python 代码。历经四轮自我演进，rStar-Math 在多项基准测试中收获显著成果，在美国数学邀请赛（AIME）中解决了 53.3%的问题，表现位居同类型的前 20%。论文链接：https://arxiv.org/pdf/2501.04519