周大 发表于 2024-7-5 16:11:46

谷歌DeepMind全新ToT基准:全面评估LLM时间推理能力

谷歌DeepMind的科研团队近期发布了一项名为Test of Time的新基准测试,旨在测评大语言模型在时间推理上的能力,包括语义理解与时间算术两方面。该测试揭示了不同模型在处理时间相关问题时的差异,表明图结构对模型性能有显著影响,且不同类型的时序任务对模型的挑战程度不一。这一基准测试将有助于提升大语言模型在处理时间信息时的准确性。
来源:https://mp.weixin.qq.com/s/TN0QWe87f6Sl_hU9ECKxGw
页: [1]
查看完整版本: 谷歌DeepMind全新ToT基准:全面评估LLM时间推理能力