周大 发表于 2024-8-14 16:27:37

苹果大模型新成果:GPT-4o扮演用户,在场景中考察大模型工具调用,网友:Siri也要努力

苹果发布ToolSandbox,一种用于评估大模型工具调用能力的新基准。该基准采用场景化测评,弥补了现有标准的不足,通过模拟真实世界中的对话交互、状态依赖等场景,评估模型整体表现、鲁棒性和效率。测试显示,闭源模型总体优于开源模型,GPT-4o表现最佳。此研究有望为智能助手Siri的未来开发提供方向。
来源:https://mp.weixin.qq.com/s/O1uf5y0aCjVIvsvRVkdBBw
页: [1]
查看完整版本: 苹果大模型新成果:GPT-4o扮演用户,在场景中考察大模型工具调用,网友:Siri也要努力