Hugging Face Open R1升级,OlympicCoder称霸IOI
Hugging Face的Open R1项目再度升级,发布了7B和32B版本的OlympicCoder模型。这些模型在2024年国际信息学奥林匹克竞赛(IOI)中表现出色,超越了包括Claude 3.7 Sonnet在内的多个前沿模型。关键在于使用了包含近10万个高质量样本的CodeForces-CoTs数据集,并通过模拟真实竞赛的提交策略优化。此外,团队还通过改进训练方法、优化上下文长度和采用8位优化器等手段显著提升了模型性能。同时,引入了奖励加权机制和多次重用生成样本的技术,进一步提高了训练效率和模型表现。数学数据集也进行了更新,增加了新的元数据以支持更明智的过滤和验证决策。来源:https://mp.weixin.qq.com/s/Bdf6eB3TNSuXzPpZuhgDog
页:
[1]