打破数据质量鸿沟！清华腾讯Bee项目发布1500万高质量数据集，刷新MLLM全栈开源SOTA

周大发表于 2025-11-11 15:36:11

清华大学与腾讯混元团队联合推出Bee项目，针对全开源多模态大模型因数据质量低下导致性能落后的问题，提出全栈式开源解决方案。其核心包括：1500万样本的高质量SFT数据集Honey-Data-15M，采用双层思维链（CoT）结构；自动化数据增强管线HoneyPipe，实现噪声过滤与多级CoT增强；以及基于该数据集训练的Bee-8B模型。该模型在MathVerse（67.0分）、LogicVista（61.3分）、CharXiv-RQ（57.3分）等多个基准上刷新全开源MLLM纪录，并在多项指标上媲美甚至超越主流半开源模型，验证了提升数据质量对模型性能的关键作用。
来源：https://mp.weixin.qq.com/s/BZ8iE1yzFh1rpPwUtWynug

		自动登录	找回密码
密码			立即注册

课程导航

打破数据质量鸿沟！清华腾讯Bee项目发布1500万高质量数据集，刷新MLLM全栈开源SOTA