周大 发表于 2025-7-22 14:38:42

MIT研究:8B模型通过测试时训练和分层投票在推理任务中超越人类水平

MIT研究人员提出“测试时训练”方法,显著提升大模型在复杂推理任务中的表现。该方法通过将测试样本转化为训练任务,在预测前更新模型参数,使8B参数模型在ARC数据集上的准确率从17.5%提升至45%,BBH数据集则从50.5%升至57.8%。结合分层投票策略后,模型可模拟人类思维,将复杂问题拆解为多个子任务逐步求解,显著提升逻辑推理能力。实验显示,该方法使模型在抽象推理任务中表现超越人类平均水平,并优于主流大模型。尽管该方法显著提高了准确性,但也带来了效率问题,单个问题的回答时间延长至5-10分钟。研究者建议将其用于高难度任务,普通任务仍可用传统提示学习方法。未来目标是开发能自动判断是否使用测试时训练的智能系统,以提升大模型的适应性和可靠性。
来源:https://mp.weixin.qq.com/s/PFRwO-MhL48E54tf7Is57A
页: [1]
查看完整版本: MIT研究:8B模型通过测试时训练和分层投票在推理任务中超越人类水平