苹果大模型新成果:GPT-4o扮演用户,在场景中考察大模型工具调用,网友:Siri也要努力

[复制链接]
周大 发表于 2024-8-14 16:27:37 | 显示全部楼层 |阅读模式
苹果发布ToolSandbox,一种用于评估大模型工具调用能力的新基准。该基准采用场景化测评,弥补了现有标准的不足,通过模拟真实世界中的对话交互、状态依赖等场景,评估模型整体表现、鲁棒性和效率。测试显示,闭源模型总体优于开源模型,GPT-4o表现最佳。此研究有望为智能助手Siri的未来开发提供方向。
来源:https://mp.weixin.qq.com/s/O1uf5y0aCjVIvsvRVkdBBw

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-5-18 16:07 , Processed in 0.321233 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表