中科院自动化所新方法:用省略号+强化学习助大模型自主按需思考,节省算力
中国科学院自动化研究所与鹏城实验室提出了名为AutoThink的高效推理策略,旨在解决大语言模型过度思考的问题。该策略通过省略号提示词结合多阶段强化学习,使模型能根据题目难度自主决定思考深度。实验表明,AutoThink在多个数学Benchmark上显著提升了模型性能,同时减少了约10%的Token消耗。其三阶段训练方案有效防止了模式坍缩,并优化了推理长度。尽管存在奖励规避和推理预算不可控等局限性,AutoThink仍展示了强大的适应性和实用性,为未来通用智能演进提供了重要方向。来源:https://mp.weixin.qq.com/s/qcGrNjIqU1cLSg_31wijJg
页:
[1]