周大 发表于 2025-8-1 15:45:53

思维链监督和强化的图表推理,7B模型媲美闭源大尺寸模型

随着强化学习微调方法(R1-Style)在数学推理和代码智能中的成功应用,DocTron团队提出Chart-R1模型,专注于提升图表类多模态数据的复杂推理能力。该模型采用程序化数据合成技术,构建了包含258k多步推理样本的ChartRQA数据集,并通过两阶段训练策略(思维链监督与数值敏感强化学习)实现高效推理。实验表明,Chart-R1在多个任务上表现优异,甚至媲美GPT-4o和Claude-3.5等大型闭源模型。该研究不仅验证了强化学习在多模态推理中的潜力,也为数据稀缺问题和高效模型训练提供了新思路,具有广泛的应用前景。
来源:https://mp.weixin.qq.com/s/3LT1mYpIUqHJtamTL3C26g
页: [1]
查看完整版本: 思维链监督和强化的图表推理,7B模型媲美闭源大尺寸模型