周大 发表于 2025-7-1 14:51:23

中科院开源DipLLM博弈框架,仅用1.5%数据超越Meta Cicero

中科院自动化所研究人员提出DipLLM,首次在复杂策略游戏Diplomacy中引入基于大语言模型的微调智能体框架。该框架通过自回归分解机制,将高维联合决策任务转化为序列化子任务,显著降低训练资源需求,在仅使用Cicero 1.5%数据的情况下实现性能超越。实验表明,DipLLM在SoS得分、胜率等多项指标上优于当前最优方法,并具备逼近纳什均衡的理论保障。这项入选ICML 2025的研究为多智能体博弈智能体的发展提供了新方向。
来源:https://mp.weixin.qq.com/s/Hg7vHB_2ujfKSyvAcNjn6g
页: [1]
查看完整版本: 中科院开源DipLLM博弈框架,仅用1.5%数据超越Meta Cicero