Flow-DPO:双LLM协作提升数学推理能力

[复制链接]
周大 发表于 2024-12-2 14:28:15 | 显示全部楼层 |阅读模式
加州大学和微软研究院开发了一种名为Flow-DPO的新方法,通过两个LLM模型相互协作,提高大型语言模型解决数学问题的能力。Flow-DPO采用增量输出生成和在线学习流,生成更详细和准确的解题过程,同时避免了人为标注数据不准确的问题。实验结果显示,Flow-DPO显著提高了Llama-3和Phi-3模型的数学推理能力和推理轨迹质量。
来源:https://mp.weixin.qq.com/s/i0nfSYcOSe85zIaged91bg

学员登陆|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2024-12-24 04:31 , Processed in 0.282702 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表