苹果再发论文：精准定位LLM幻觉，GPT-5、o3都办不到

周大发表于 2025-10-6 14:55:41

苹果最新研究提出 RL4HS 框架，利用强化学习与片段级奖励实现对大语言模型幻觉内容的精准定位。该方法通过类别感知优化（CAPO）解决奖励不平衡问题，在 RAGTruth 基准测试中，RL4HS-14B 在摘要、问答和数据到文本任务上的 F1 分数分别达 57.6、54.8 和 62.6，超越 GPT-5 和 o3 等先进模型，显著优于传统微调方法，为提升模型可靠性与可审计性提供了有效路径。
来源：https://mp.weixin.qq.com/s/2kk7qE7WxyG1gzBtTl0ZLA

		自动登录	找回密码
密码			立即注册

课程导航

苹果再发论文：精准定位LLM幻觉，GPT-5、o3都办不到