MIT研究:8B模型通过测试时训练和分层投票在推理任务中超越人类水平

[复制链接]
周大 发表于 2025-7-22 14:38:42 | 显示全部楼层 |阅读模式
MIT研究人员提出“测试时训练”方法,显著提升大模型在复杂推理任务中的表现。该方法通过将测试样本转化为训练任务,在预测前更新模型参数,使8B参数模型在ARC数据集上的准确率从17.5%提升至45%,BBH数据集则从50.5%升至57.8%。结合分层投票策略后,模型可模拟人类思维,将复杂问题拆解为多个子任务逐步求解,显著提升逻辑推理能力。实验显示,该方法使模型在抽象推理任务中表现超越人类平均水平,并优于主流大模型。尽管该方法显著提高了准确性,但也带来了效率问题,单个问题的回答时间延长至5-10分钟。研究者建议将其用于高难度任务,普通任务仍可用传统提示学习方法。未来目标是开发能自动判断是否使用测试时训练的智能系统,以提升大模型的适应性和可靠性。
来源:https://mp.weixin.qq.com/s/PFRwO-MhL48E54tf7Is57A

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-8-1 17:02 , Processed in 0.299711 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表