Flow-DPO：双LLM协作提升数学推理能力

周大发表于 2024-12-2 14:28:15

加州大学和微软研究院开发了一种名为Flow-DPO的新方法，通过两个LLM模型相互协作，提高大型语言模型解决数学问题的能力。Flow-DPO采用增量输出生成和在线学习流，生成更详细和准确的解题过程，同时避免了人为标注数据不准确的问题。实验结果显示，Flow-DPO显著提高了Llama-3和Phi-3模型的数学推理能力和推理轨迹质量。
来源：https://mp.weixin.qq.com/s/i0nfSYcOSe85zIaged91bg

页: [1]

靠浦ai课堂's Archiver

Flow-DPO：双LLM协作提升数学推理能力