GPT-4o准确率仅为24%！权威中文教育基准：知识+情商的双重考验

周大发表于 2025-11-14 13:43:28

华东师范大学推出首个兼顾“知识+育人”双维度的中文教育评测基准OmniEduBench，包含24,602道题目，覆盖全学段、全学科及多样化题型。测试显示，即便顶尖模型如GPT-4o在知识维度表现欠佳（仅24.17%准确率），而育人维度上所有模型均存在明显短板，最佳模型准确率70.27%，距人类水平差近30%。高难度子集更暴露模型性能断崖式下滑，表明当前AI在情感支持、价值观引导等教育核心能力上仍远未成熟。
来源：https://mp.weixin.qq.com/s/bRCdCS-lXrguvFmjBTQO-Q

		自动登录	找回密码
密码			立即注册

课程导航

GPT-4o准确率仅为24%！权威中文教育基准：知识+情商的双重考验