OpenAI-o1思考替代法火了!焦剑涛高徒一作提出思考偏好优化,不限于推理任务
一项新研究提出了“思考偏好优化”(TPO)方法,使模型能根据任务复杂度进行内部“思考”,生成更好答案,最终只显示结果。该研究由加州大学伯克利分校、Meta FAIR和纽约大学的华人学者Tianhao Wu等人提出。实验结果显示,TPO在Llama 3 8B Instruct上效果显著,在AlpacaEval和Arena-Hard基准测试中分别比基线提升4.1%和4.3%。TPO不仅适用于推理和数学任务,也在营销、健康、一般知识等非推理任务上表现出色。来源:https://mp.weixin.qq.com/s/h3o8J2UI_vYySYFAMTtQHA
页:
[1]