超越GPT-4o！华人团队新框架让Qwen跨领域推理提升10%，刷新12项基准测试

周大发表于 2025-6-4 13:53:09

来自加拿大滑铁卢大学与TikTok新加坡的华人团队提出了一种名为General-Reasoner的新训练框架，显著提升了Qwen系列大模型的跨领域推理能力，准确率提高近10%，并在多项基准测试中超越GPT-4o。该框架通过构建包含23万道高质量问题的全领域推理数据集（WebInstruct-verified）和开发仅1.5B参数的生成式答案验证器（General-Verifier），有效解决了传统方法在泛化能力和验证灵活性上的不足。实测表明，基于Qwen2.5/Qwen3系列模型的General-Reasoner在数学推理和跨领域任务中表现出色，未来团队将致力于进一步优化模型性能与数据质量。
来源：https://mp.weixin.qq.com/s/GDe5Dm17ekCCbUwKO475iA

页: [1]

靠浦ai课堂's Archiver

超越GPT-4o！华人团队新框架让Qwen跨领域推理提升10%，刷新12项基准测试