先验+后验加持,大模型能否 hold 住推理预测的现实「溢出」?

[复制链接]
周大 发表于 2025-9-27 14:27:55 | 显示全部楼层 |阅读模式
字节跳动等机构推出FutureX动态评测基准,通过每日更新数据、闭环验证方式评估大模型在未知环境中的预测能力。实验涵盖23个主流模型,在财务预测等现实场景中,顶尖模型在约40%的企业财报预测上优于华尔街分析师。研究发现,模型表现受限不仅因推理不足,更源于执行过程中错误累积。FutureX区分记忆与预测能力,揭示当前大模型在长程任务稳定性与真实世界适应性方面的挑战,为后续优化提供方向。
来源:https://mp.weixin.qq.com/s/90n_lQxKA7er41zcXfWd3g

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-10-10 00:03 , Processed in 0.289676 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表