苹果创新“清单法”:用AI大模型当“老师”,教小模型更精准执行复杂指令

[复制链接]
周大 发表于 2025-8-26 13:57:30 | 显示全部楼层 |阅读模式
苹果研究人员提出一种名为“基于清单反馈的强化学习”(RLCF)的新方法,通过生成任务清单并逐项评分,显著提升大语言模型在复杂指令执行上的表现。在Qwen2.5-7B-Instruct模型上的测试显示,RLCF在多个基准测试中均有提升,其中FollowBench提升4%、InFoBench提升6%、Arena-Hard胜率提升3%,个别任务提升最高达8.2%。该方法使用Qwen2.5-72B-Instruct模型为13万条指令生成“WildChecklists”数据集,以加权评分作为训练信号。研究者也指出其局限,如依赖高性能模型和不适用于安全对齐等问题。
来源:https://tech.ifeng.com/c/8m7knucDYKM

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-9-27 18:35 , Processed in 0.289497 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表