中科院开源DipLLM博弈框架,仅用1.5%数据超越Meta Cicero

[复制链接]
周大 发表于 4 天前 | 显示全部楼层 |阅读模式
中科院自动化所研究人员提出DipLLM,首次在复杂策略游戏Diplomacy中引入基于大语言模型的微调智能体框架。该框架通过自回归分解机制,将高维联合决策任务转化为序列化子任务,显著降低训练资源需求,在仅使用Cicero 1.5%数据的情况下实现性能超越。实验表明,DipLLM在SoS得分、胜率等多项指标上优于当前最优方法,并具备逼近纳什均衡的理论保障。这项入选ICML 2025的研究为多智能体博弈智能体的发展提供了新方向。
来源:https://mp.weixin.qq.com/s/Hg7vHB_2ujfKSyvAcNjn6g

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-7-5 21:25 , Processed in 0.297720 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表