三思而后行,让大模型推理更强的秘密是「THINK TWICE」?
a-m-team 团队提出「Think Twice」方法,通过多轮推理优化大语言模型性能,无需额外训练或复杂机制。该方法模仿人类反思过程,以结果驱动的方式逐步修正模型偏误,有效缓解“认知惯性”。实验表明,在 AIME、MATH-500 等数据集上,DeepSeek-R1 和 QwQ-32B 等模型准确率显著提升,同时语言风格更简洁自信。这种方法实用性强,为模型部署及未来研究提供了新思路。来源:https://mp.weixin.qq.com/s/xCN70_gwjkRTAh7nWdtggA
页:
[1]