OpenAI-o1思考替代法火了！焦剑涛高徒一作提出思考偏好优化，不限于推理任务

周大发表于 2024-10-29 15:30:41

一项新研究提出了“思考偏好优化”(TPO)方法，使模型能根据任务复杂度进行内部“思考”，生成更好答案，最终只显示结果。该研究由加州大学伯克利分校、Meta FAIR和纽约大学的华人学者Tianhao Wu等人提出。实验结果显示，TPO在Llama 3 8B Instruct上效果显著，在AlpacaEval和Arena-Hard基准测试中分别比基线提升4.1%和4.3%。TPO不仅适用于推理和数学任务，也在营销、健康、一般知识等非推理任务上表现出色。
来源：https://mp.weixin.qq.com/s/h3o8J2UI_vYySYFAMTtQHA

页: [1]

靠浦ai课堂's Archiver

OpenAI-o1思考替代法火了！焦剑涛高徒一作提出思考偏好优化，不限于推理任务