思维链监督和强化的图表推理，7B模型媲美闭源大尺寸模型

周大发表于 2025-8-1 15:45:53

随着强化学习微调方法（R1-Style）在数学推理和代码智能中的成功应用，DocTron团队提出Chart-R1模型，专注于提升图表类多模态数据的复杂推理能力。该模型采用程序化数据合成技术，构建了包含258k多步推理样本的ChartRQA数据集，并通过两阶段训练策略（思维链监督与数值敏感强化学习）实现高效推理。实验表明，Chart-R1在多个任务上表现优异，甚至媲美GPT-4o和Claude-3.5等大型闭源模型。该研究不仅验证了强化学习在多模态推理中的潜力，也为数据稀缺问题和高效模型训练提供了新思路，具有广泛的应用前景。
来源：https://mp.weixin.qq.com/s/3LT1mYpIUqHJtamTL3C26g

		自动登录	找回密码
密码			立即注册

课程导航

思维链监督和强化的图表推理，7B模型媲美闭源大尺寸模型