LLM仍然不能规划,刷屏的OpenAI o1远未达到饱和

[复制链接]
周大 发表于 2024-9-25 15:10:30 | 显示全部楼层 |阅读模式
OpenAI的o1模型在多项基准测试中展现出卓越推理能力,超越前辈GPT-4o,提升了大模型的性能标准。然而,亚利桑那州立大学研究团队通过PlanBench基准测试发现,包括o1在内的大型语言模型在规划与解决问题的System 2能力上仍有显著局限。尽管o1在基础测试中成绩斐然,面对复杂情景和大规模问题时,其准确率和稳定性急剧下滑,揭示了当前技术的瓶颈与未来改进的方向。
来源:https://mp.weixin.qq.com/s/wZWmcRn7luyWhTCYA2Tk9Q

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-5-18 08:35 , Processed in 0.271499 second(s), 22 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表