训练1000样本就能超越o1,李飞飞等人画出AI扩展新曲线

[复制链接]
周大 发表于 2025-2-5 14:57:00 | 显示全部楼层 |阅读模式
斯坦福大学等机构推出新方法 s1,仅用 1000 个样本训练,通过测试时间扩展技术和“预算强制”策略,使 Qwen2.5-32B-Instruct 模型在竞赛数学问题上的推理性能提升 27%,超越 o1-preview。s1 专注于序列扩展,使用 16 块 H100 GPU 训练 26 分钟完成。该方法大幅简化了训练过程,展示了高效的样本利用率,并完全开源,为 AGI 创新提供了新思路。
来源:https://mp.weixin.qq.com/s/ax_CCrqpgrp5j2mLOssY4w

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-4-21 03:28 , Processed in 0.295334 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表