周大 发表于 2025-3-7 15:51:36

微软GUI智能体OmniParser二代开源!推理延迟降低60%,大模型玩手机更溜了

OmniParser V2是一款将屏幕截图转换为结构化元素的新工具,能显著提高大型语言模型(LLM)对图形用户界面(GUI)的理解和操作能力。该版本在检测小图标方面准确率更高,推理延迟降低了60%,并在多个基准测试中表现出色。通过使用Set-of-Marks方法和构建专用数据集,OmniParser V2优化了可交互区域检测。此外,配套工具OmniTool支持与多种先进LLM集成,以实现更高效的GUI自动化。研究团队还采取了负责任的AI实践以确保安全性。
来源:https://mp.weixin.qq.com/s/snWwF9mL9C-kKYr_h0nHxw
页: [1]
查看完整版本: 微软GUI智能体OmniParser二代开源!推理延迟降低60%,大模型玩手机更溜了