先验+后验加持，大模型能否 hold 住推理预测的现实「溢出」？

周大发表于 2025-9-27 14:27:55

字节跳动等机构推出FutureX动态评测基准，通过每日更新数据、闭环验证方式评估大模型在未知环境中的预测能力。实验涵盖23个主流模型，在财务预测等现实场景中，顶尖模型在约40%的企业财报预测上优于华尔街分析师。研究发现，模型表现受限不仅因推理不足，更源于执行过程中错误累积。FutureX区分记忆与预测能力，揭示当前大模型在长程任务稳定性与真实世界适应性方面的挑战，为后续优化提供方向。
来源：https://mp.weixin.qq.com/s/90n_lQxKA7er41zcXfWd3g

		自动登录	找回密码
密码			立即注册

课程导航

先验+后验加持，大模型能否 hold 住推理预测的现实「溢出」？