腾讯推出TiG框架，14B大模型边玩边学《王者荣耀》，击败671B模型

周大发表于 2025-9-2 13:57:55

腾讯提出名为Think-In-Games (TiG) 的新框架，将大语言模型引入《王者荣耀》进行游戏内训练。TiG将强化学习决策转化为语言建模任务，结合语言模型的解释能力与强化学习的行动机制，使模型能基于宏观战略进行推理和操作。实验显示，14B参数的Qwen-3-14B模型通过SFT+GRPO训练，动作精准度达90.91%，超越671B参数的Deepseek-R1。该方法通过重新标注算法和Group Relative Policy Optimization (GRPO)算法，在减少数据与计算需求的前提下，实现了高效战略学习，为AI在复杂决策任务中的应用提供了新思路。
来源：https://mp.weixin.qq.com/s/kJXdafgIe9zfy8NqYgdIcA

页: [1]

靠浦ai课堂's Archiver

腾讯推出TiG框架，14B大模型边玩边学《王者荣耀》，击败671B模型