腾讯推出TiG框架,14B大模型边玩边学《王者荣耀》,击败671B模型
腾讯提出名为Think-In-Games (TiG) 的新框架,将大语言模型引入《王者荣耀》进行游戏内训练。TiG将强化学习决策转化为语言建模任务,结合语言模型的解释能力与强化学习的行动机制,使模型能基于宏观战略进行推理和操作。实验显示,14B参数的Qwen-3-14B模型通过SFT+GRPO训练,动作精准度达90.91%,超越671B参数的Deepseek-R1。该方法通过重新标注算法和Group Relative Policy Optimization (GRPO)算法,在减少数据与计算需求的前提下,实现了高效战略学习,为AI在复杂决策任务中的应用提供了新思路。来源:https://mp.weixin.qq.com/s/kJXdafgIe9zfy8NqYgdIcA
页:
[1]