周大 发表于 2025-4-18 15:17:57

字节Seed开源多模态智能体UI-TARS-1.5

字节跳动Seed团队正式开源UI-TARS-1.5,该多模态智能体基于视觉-语言框架,可精准操作电脑、手机系统等复杂任务,在7个GUI评测中表现领先,并具备游戏长时推理能力。通过强化学习与“行动前思考”功能,模型实现高阶推理与多步骤任务决策,同时在视觉感知和跨平台交互方面显著提升。
来源:https://tech.ifeng.com/c/8ie4244rmQG
页: [1]
查看完整版本: 字节Seed开源多模态智能体UI-TARS-1.5