哪家AI能成卧底之王?淘天技术团队发布多智能体博弈游戏平台WiS

[复制链接]
周大 发表于 2024-12-25 15:25:16 | 显示全部楼层 |阅读模式
WiS平台由淘天集团未来生活实验室与阿里妈妈技术团队推出,旨在评估基于大型语言模型(LLMs)的多智能体系统(MAS)在社交推理和博弈中的表现。该平台通过“谁是卧底”游戏深入剖析AI的推理、欺骗和协作能力,设计了动态互动场景、公平实验,并展示了不同AI的独特技能。平台还进行了攻击与防御实验,揭示了模型在复杂交互中的脆弱点。此外,WiS提供了实时竞技、可视化回放及开源工具,促进了技术交流。实验数据显示,GPT-4o在推理实验中表现出极高的投票准确率,而其他模型则存在不同程度的差距。
来源:https://mp.weixin.qq.com/s/rsLEH3rZjG0ko31j4auHng

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-4-22 16:22 , Processed in 0.286479 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表