GPT-4o准确率仅为24%!权威中文教育基准:知识+情商的双重考验

[复制链接]
周大 发表于 2025-11-14 13:43:28 | 显示全部楼层 |阅读模式
华东师范大学推出首个兼顾“知识+育人”双维度的中文教育评测基准OmniEduBench,包含24,602道题目,覆盖全学段、全学科及多样化题型。测试显示,即便顶尖模型如GPT-4o在知识维度表现欠佳(仅24.17%准确率),而育人维度上所有模型均存在明显短板,最佳模型准确率70.27%,距人类水平差近30%。高难度子集更暴露模型性能断崖式下滑,表明当前AI在情感支持、价值观引导等教育核心能力上仍远未成熟。
来源:https://mp.weixin.qq.com/s/bRCdCS-lXrguvFmjBTQO-Q

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-11-28 03:01 , Processed in 0.267778 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表