超越GPT-4o!华人团队新框架让Qwen跨领域推理提升10%,刷新12项基准测试
来自加拿大滑铁卢大学与TikTok新加坡的华人团队提出了一种名为General-Reasoner的新训练框架,显著提升了Qwen系列大模型的跨领域推理能力,准确率提高近10%,并在多项基准测试中超越GPT-4o。该框架通过构建包含23万道高质量问题的全领域推理数据集(WebInstruct-verified)和开发仅1.5B参数的生成式答案验证器(General-Verifier),有效解决了传统方法在泛化能力和验证灵活性上的不足。实测表明,基于Qwen2.5/Qwen3系列模型的General-Reasoner在数学推理和跨领域任务中表现出色,未来团队将致力于进一步优化模型性能与数据质量。来源:https://mp.weixin.qq.com/s/GDe5Dm17ekCCbUwKO475iA
页:
[1]