北理发布全球首个「全场景教育」基准,支持4000+情境
北京理工大学高扬老师团队推出了全球首个专为教育场景设计的综合评估基准EduBench,涵盖9大教育场景、12个评估维度及超4000个教育情境。该基准通过多维度评估体系与人工标注一致性计算,确保了评估的全面性和可靠性。EduBench包含18821条数据,覆盖从基础教育到高等教育的多学科内容,研究团队已全面开源相关数据和模型。实验显示,尽管主流大模型在常见任务中表现出色,但在复杂教育场景下仍存在不足,且评分普遍高于人类标注者。团队采用多源知识蒸馏方法,成功让小规模模型在多项指标上媲美大规模模型。未来,团队计划优化评估流程并引入更多人工编写查询,推动教育智能化发展。来源:https://mp.weixin.qq.com/s/HyTlGEw4wyol9W2O1stW1g
页:
[1]