思维链监督和强化的图表推理,7B模型媲美闭源大尺寸模型

[复制链接]
周大 发表于 2025-8-1 15:45:53 | 显示全部楼层 |阅读模式
随着强化学习微调方法(R1-Style)在数学推理和代码智能中的成功应用,DocTron团队提出Chart-R1模型,专注于提升图表类多模态数据的复杂推理能力。该模型采用程序化数据合成技术,构建了包含258k多步推理样本的ChartRQA数据集,并通过两阶段训练策略(思维链监督与数值敏感强化学习)实现高效推理。实验表明,Chart-R1在多个任务上表现优异,甚至媲美GPT-4o和Claude-3.5等大型闭源模型。该研究不仅验证了强化学习在多模态推理中的潜力,也为数据稀缺问题和高效模型训练提供了新思路,具有广泛的应用前景。
来源:https://mp.weixin.qq.com/s/3LT1mYpIUqHJtamTL3C26g

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-8-22 22:09 , Processed in 0.284078 second(s), 22 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表