Flow-DPO:双LLM协作提升数学推理能力
加州大学和微软研究院开发了一种名为Flow-DPO的新方法,通过两个LLM模型相互协作,提高大型语言模型解决数学问题的能力。Flow-DPO采用增量输出生成和在线学习流,生成更详细和准确的解题过程,同时避免了人为标注数据不准确的问题。实验结果显示,Flow-DPO显著提高了Llama-3和Phi-3模型的数学推理能力和推理轨迹质量。来源:https://mp.weixin.qq.com/s/i0nfSYcOSe85zIaged91bg
页:
[1]