MIT研究：8B模型通过测试时训练和分层投票在推理任务中超越人类水平

周大发表于 2025-7-22 14:38:42

MIT研究人员提出“测试时训练”方法，显著提升大模型在复杂推理任务中的表现。该方法通过将测试样本转化为训练任务，在预测前更新模型参数，使8B参数模型在ARC数据集上的准确率从17.5%提升至45%，BBH数据集则从50.5%升至57.8%。结合分层投票策略后，模型可模拟人类思维，将复杂问题拆解为多个子任务逐步求解，显著提升逻辑推理能力。实验显示，该方法使模型在抽象推理任务中表现超越人类平均水平，并优于主流大模型。尽管该方法显著提高了准确性，但也带来了效率问题，单个问题的回答时间延长至5-10分钟。研究者建议将其用于高难度任务，普通任务仍可用传统提示学习方法。未来目标是开发能自动判断是否使用测试时训练的智能系统，以提升大模型的适应性和可靠性。
来源：https://mp.weixin.qq.com/s/PFRwO-MhL48E54tf7Is57A

页: [1]

靠浦ai课堂's Archiver

MIT研究：8B模型通过测试时训练和分层投票在推理任务中超越人类水平