谷歌DeepMind全新ToT基准：全面评估LLM时间推理能力

周大发表于 2024-7-5 16:11:46

谷歌DeepMind的科研团队近期发布了一项名为Test of Time的新基准测试，旨在测评大语言模型在时间推理上的能力，包括语义理解与时间算术两方面。该测试揭示了不同模型在处理时间相关问题时的差异，表明图结构对模型性能有显著影响，且不同类型的时序任务对模型的挑战程度不一。这一基准测试将有助于提升大语言模型在处理时间信息时的准确性。
来源：https://mp.weixin.qq.com/s/TN0QWe87f6Sl_hU9ECKxGw

页: [1]

靠浦ai课堂's Archiver

谷歌DeepMind全新ToT基准：全面评估LLM时间推理能力