谷歌DeepMind展示GenRM技术：微调LLMs作为奖励模型，提升生成式AI推理能力

周大发表于 2024-9-3 15:06:46

谷歌 DeepMind 近日发布了一种名为 GenRM 的生成式验证器，该验证器通过创新的方式提升了生成式 AI 的推理能力。GenRM 通过下一个 token 预测目标训练验证器，相较于传统验证器，GenRM 在算法和小学数学推理任务中表现出色，解决问题的百分比提高了 16-64%，标志着人工智能奖励系统的关键演化。
来源：https://tech.ifeng.com/c/8cZInJwj9o2

页: [1]

靠浦ai课堂's Archiver

谷歌DeepMind展示GenRM技术：微调LLMs作为奖励模型，提升生成式AI推理能力