当前位置矩阵通>行业资讯>正文
小红书Hi Lab团队提出可大幅降低平均思考长度的强化学习训练方式
发布时间:2025/06/20
新榜讯 6月19日,小红书技术团队发布消息,其深度思考模型借助Test - Time Scaling(测试时扩展)显著提升了模型推理能力,不过也产生了大量冗余和无效思考情况。

新榜讯 6月19日,小红书技术团队发布消息,其深度思考模型借助Test - Time Scaling(测试时扩展)显著提升了模型推理能力,不过也产生了大量冗余和无效思考情况。小红书Hi Lab团队为此提出Think When You Need的强化学习训练方式,在不影响最终效果的情况下,实现了动态CoT能力,让平均思考长度大幅降低。实验表明,这一理念在推理及非推理等各类任务中具有广泛适用性。此外,团队还有一项重要发现,在相同任务下,参数量大、更为“聪明”的模型所需的思考长度更短,该现象与当前深度思考模型的表现相悖,却高度契合人类认知。


即刻体验矩阵通,为企业搭建高效的新媒体矩阵管理系统
申请试用
上海新榜信息技术股份有限公司
©2023 NEWRANK沪ICP备14042332号-2
沪公网安备31010402005073号
矩阵ACE地图