Meta发布元奖励模型 让LLM自评自进化

[复制链接]
周大 发表于 2024-7-31 15:50:20 | 显示全部楼层 |阅读模式
Meta联合UC伯克利及NYU提出一种名为“元奖励”的语言模型,该模型通过自我奖励机制让AI担任裁判角色,评价自身响应质量以实现性能提升。最新研究通过增加“元奖励”步骤,进一步提升模型的自我评价能力,实验表明,这种方法显著增强了模型性能,如Llama-3-8B-Instruct在AlpacaEval 2上的精准率提升至39.4%。通过控制长度和采用元奖励机制,解决了模型偏好过长响应的问题,并提高了评价准确性。
来源:https://mp.weixin.qq.com/s/yDE7QLuaCJwpwH7Ln9VuCg

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-5-18 22:32 , Processed in 0.272696 second(s), 22 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表