谷歌DeepMind全新ToT基准:全面评估LLM时间推理能力

[复制链接]
周大 发表于 2024-7-5 16:11:46 | 显示全部楼层 |阅读模式
谷歌DeepMind的科研团队近期发布了一项名为Test of Time的新基准测试,旨在测评大语言模型在时间推理上的能力,包括语义理解与时间算术两方面。该测试揭示了不同模型在处理时间相关问题时的差异,表明图结构对模型性能有显著影响,且不同类型的时序任务对模型的挑战程度不一。这一基准测试将有助于提升大语言模型在处理时间信息时的准确性。
来源:https://mp.weixin.qq.com/s/TN0QWe87f6Sl_hU9ECKxGw

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-6-8 20:09 , Processed in 0.285461 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表