元强化学习助力LLM测试时计算优化

[复制链接]
周大 发表于 2025-1-27 15:43:29 | 显示全部楼层 |阅读模式
随着高质量数据即将在2028年耗尽,数据扩展面临瓶颈。2025年起,测试时计算将成为AI发展的新方向。卡内基梅隆大学(CMU)机器学习系提出,通过元强化学习优化大语言模型(LLM)测试时计算,以提高模型泛化能力。传统LLM主要训练生成特定输出,而新方法强调学习“如何解答”,使模型能在测试时自适应调整策略,在有限计算资源下获得更好表现。
来源:https://mp.weixin.qq.com/s/_fDzxFAQEl5XlsaP52fgEA

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-4-21 10:41 , Processed in 0.314404 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表