周大 发表于 2024-9-25 15:10:30

LLM仍然不能规划,刷屏的OpenAI o1远未达到饱和

OpenAI的o1模型在多项基准测试中展现出卓越推理能力,超越前辈GPT-4o,提升了大模型的性能标准。然而,亚利桑那州立大学研究团队通过PlanBench基准测试发现,包括o1在内的大型语言模型在规划与解决问题的System 2能力上仍有显著局限。尽管o1在基础测试中成绩斐然,面对复杂情景和大规模问题时,其准确率和稳定性急剧下滑,揭示了当前技术的瓶颈与未来改进的方向。
来源:https://mp.weixin.qq.com/s/wZWmcRn7luyWhTCYA2Tk9Q
页: [1]
查看完整版本: LLM仍然不能规划,刷屏的OpenAI o1远未达到饱和