苹果大模型新成果：GPT-4o扮演用户，在场景中考察大模型工具调用，网友：Siri也要努力

周大发表于 2024-8-14 16:27:37

苹果发布ToolSandbox，一种用于评估大模型工具调用能力的新基准。该基准采用场景化测评，弥补了现有标准的不足，通过模拟真实世界中的对话交互、状态依赖等场景，评估模型整体表现、鲁棒性和效率。测试显示，闭源模型总体优于开源模型，GPT-4o表现最佳。此研究有望为智能助手Siri的未来开发提供方向。
来源：https://mp.weixin.qq.com/s/O1uf5y0aCjVIvsvRVkdBBw

页: [1]

靠浦ai课堂's Archiver

苹果大模型新成果：GPT-4o扮演用户，在场景中考察大模型工具调用，网友：Siri也要努力