训练1000样本就能超越o1，李飞飞等人画出AI扩展新曲线

周大发表于 2025-2-5 14:57:00

斯坦福大学等机构推出新方法 s1，仅用 1000 个样本训练，通过测试时间扩展技术和“预算强制”策略，使 Qwen2.5-32B-Instruct 模型在竞赛数学问题上的推理性能提升 27%，超越 o1-preview。s1 专注于序列扩展，使用 16 块 H100 GPU 训练 26 分钟完成。该方法大幅简化了训练过程，展示了高效的样本利用率，并完全开源，为 AGI 创新提供了新思路。
来源：https://mp.weixin.qq.com/s/ax_CCrqpgrp5j2mLOssY4w

页: [1]

靠浦ai课堂's Archiver

训练1000样本就能超越o1，李飞飞等人画出AI扩展新曲线