OpenAI-o1思考替代法火了!焦剑涛高徒一作提出思考偏好优化,不限于推理任务

[复制链接]
周大 发表于 2024-10-29 15:30:41 | 显示全部楼层 |阅读模式
一项新研究提出了“思考偏好优化”(TPO)方法,使模型能根据任务复杂度进行内部“思考”,生成更好答案,最终只显示结果。该研究由加州大学伯克利分校、Meta FAIR和纽约大学的华人学者Tianhao Wu等人提出。实验结果显示,TPO在Llama 3 8B Instruct上效果显著,在AlpacaEval和Arena-Hard基准测试中分别比基线提升4.1%和4.3%。TPO不仅适用于推理和数学任务,也在营销、健康、一般知识等非推理任务上表现出色。
来源:https://mp.weixin.qq.com/s/h3o8J2UI_vYySYFAMTtQHA

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-5-17 19:46 , Processed in 0.255282 second(s), 22 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表