打破数据质量鸿沟!清华腾讯Bee项目发布1500万高质量数据集,刷新MLLM全栈开源SOTA

[复制链接]
周大 发表于 2025-11-11 15:36:11 | 显示全部楼层 |阅读模式
清华大学与腾讯混元团队联合推出Bee项目,针对全开源多模态大模型因数据质量低下导致性能落后的问题,提出全栈式开源解决方案。其核心包括:1500万样本的高质量SFT数据集Honey-Data-15M,采用双层思维链(CoT)结构;自动化数据增强管线HoneyPipe,实现噪声过滤与多级CoT增强;以及基于该数据集训练的Bee-8B模型。该模型在MathVerse(67.0分)、LogicVista(61.3分)、CharXiv-RQ(57.3分)等多个基准上刷新全开源MLLM纪录,并在多项指标上媲美甚至超越主流半开源模型,验证了提升数据质量对模型性能的关键作用。
来源:https://mp.weixin.qq.com/s/BZ8iE1yzFh1rpPwUtWynug

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-11-28 05:08 , Processed in 0.329838 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表