LLM仍然不能规划，刷屏的OpenAI o1远未达到饱和

周大发表于 2024-9-25 15:10:30

OpenAI的o1模型在多项基准测试中展现出卓越推理能力，超越前辈GPT-4o，提升了大模型的性能标准。然而，亚利桑那州立大学研究团队通过PlanBench基准测试发现，包括o1在内的大型语言模型在规划与解决问题的System 2能力上仍有显著局限。尽管o1在基础测试中成绩斐然，面对复杂情景和大规模问题时，其准确率和稳定性急剧下滑，揭示了当前技术的瓶颈与未来改进的方向。
来源：https://mp.weixin.qq.com/s/wZWmcRn7luyWhTCYA2Tk9Q

页: [1]

靠浦ai课堂's Archiver

LLM仍然不能规划，刷屏的OpenAI o1远未达到饱和