周大 发表于 2025-2-5 14:57:00

训练1000样本就能超越o1,李飞飞等人画出AI扩展新曲线

斯坦福大学等机构推出新方法 s1,仅用 1000 个样本训练,通过测试时间扩展技术和“预算强制”策略,使 Qwen2.5-32B-Instruct 模型在竞赛数学问题上的推理性能提升 27%,超越 o1-preview。s1 专注于序列扩展,使用 16 块 H100 GPU 训练 26 分钟完成。该方法大幅简化了训练过程,展示了高效的样本利用率,并完全开源,为 AGI 创新提供了新思路。
来源:https://mp.weixin.qq.com/s/ax_CCrqpgrp5j2mLOssY4w
页: [1]
查看完整版本: 训练1000样本就能超越o1,李飞飞等人画出AI扩展新曲线