周大 发表于 2024-9-3 15:06:46

谷歌DeepMind展示GenRM技术:微调LLMs作为奖励模型,提升生成式AI推理能力

谷歌 DeepMind 近日发布了一种名为 GenRM 的生成式验证器,该验证器通过创新的方式提升了生成式 AI 的推理能力。GenRM 通过下一个 token 预测目标训练验证器,相较于传统验证器,GenRM 在算法和小学数学推理任务中表现出色,解决问题的百分比提高了 16-64%,标志着人工智能奖励系统的关键演化。
来源:https://tech.ifeng.com/c/8cZInJwj9o2
页: [1]
查看完整版本: 谷歌DeepMind展示GenRM技术:微调LLMs作为奖励模型,提升生成式AI推理能力