腾讯推出TiG框架,14B大模型边玩边学《王者荣耀》,击败671B模型

[复制链接]
周大 发表于 2025-9-2 13:57:55 | 显示全部楼层 |阅读模式
腾讯提出名为Think-In-Games (TiG) 的新框架,将大语言模型引入《王者荣耀》进行游戏内训练。TiG将强化学习决策转化为语言建模任务,结合语言模型的解释能力与强化学习的行动机制,使模型能基于宏观战略进行推理和操作。实验显示,14B参数的Qwen-3-14B模型通过SFT+GRPO训练,动作精准度达90.91%,超越671B参数的Deepseek-R1。该方法通过重新标注算法和Group Relative Policy Optimization (GRPO)算法,在减少数据与计算需求的前提下,实现了高效战略学习,为AI在复杂决策任务中的应用提供了新思路。
来源:https://mp.weixin.qq.com/s/kJXdafgIe9zfy8NqYgdIcA

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-9-27 18:36 , Processed in 0.296351 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表