又一推理新范式：将LLM自身视作「改进操作符」，突破长思维链极限

周大发表于 2025-10-3 15:37:06

Meta、UCL、Mila 和 Anthropic 等机构提出并行-蒸馏-精炼（PDR）推理框架，通过并行生成、摘要蒸馏与迭代精炼，在控制上下文长度的同时提升大模型在数学任务中的准确性。实验显示，在 AIME 2024 和 2025 上，PDR 使 o3-mini 准确率相较长思维链提升达 +9.8 个百分点，且延迟更低。研究还发现，结合操作符一致性强化学习可进一步推动性能边界，在相同预算下显著提升模型表现，验证了短上下文迭代推理的潜力。
来源：https://mp.weixin.qq.com/s/mBy2jUF7VythOxB4oJWp0w

		自动登录	找回密码
密码			立即注册

课程导航

又一推理新范式：将LLM自身视作「改进操作符」，突破长思维链极限