谷歌DeepMind展示GenRM技术:微调LLMs作为奖励模型,提升生成式AI推理能力

[复制链接]
周大 发表于 2024-9-3 15:06:46 | 显示全部楼层 |阅读模式
谷歌 DeepMind 近日发布了一种名为 GenRM 的生成式验证器,该验证器通过创新的方式提升了生成式 AI 的推理能力。GenRM 通过下一个 token 预测目标训练验证器,相较于传统验证器,GenRM 在算法和小学数学推理任务中表现出色,解决问题的百分比提高了 16-64%,标志着人工智能奖励系统的关键演化。
来源:https://tech.ifeng.com/c/8cZInJwj9o2

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-5-18 15:21 , Processed in 0.286354 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表