中科院开源DipLLM博弈框架，仅用1.5%数据超越Meta Cicero

周大发表于 2025-7-1 14:51:23

中科院自动化所研究人员提出DipLLM，首次在复杂策略游戏Diplomacy中引入基于大语言模型的微调智能体框架。该框架通过自回归分解机制，将高维联合决策任务转化为序列化子任务，显著降低训练资源需求，在仅使用Cicero 1.5%数据的情况下实现性能超越。实验表明，DipLLM在SoS得分、胜率等多项指标上优于当前最优方法，并具备逼近纳什均衡的理论保障。这项入选ICML 2025的研究为多智能体博弈智能体的发展提供了新方向。
来源：https://mp.weixin.qq.com/s/Hg7vHB_2ujfKSyvAcNjn6g

页: [1]

靠浦ai课堂's Archiver

中科院开源DipLLM博弈框架，仅用1.5%数据超越Meta Cicero