单靠推理Scaling Law无法成就o1！无限推理token，GPT-4o依然完败

周大发表于 2024-9-29 15:15:39

Epoch AI的研究表明，尽管o1-preview在GPQA基准测试中显著优于GPT-4o和其他模型，单纯增加推理计算量无法复制其性能。实验采用多数投票和修正方法提高GPT-4o的输出，但仍落后o1-preview约10个百分点。研究指出，o1的卓越性能可能归功于强化学习技术和改进的搜索方法，而非单纯算力提升。同时，o1在规划能力测试PlanBench中表现虽有改进，但仍显不足。
来源：https://mp.weixin.qq.com/s/kmyuN9V867rb-HmswSPc0w

		自动登录	找回密码
密码			立即注册

课程导航

单靠推理Scaling Law无法成就o1！无限推理token，GPT-4o依然完败