微软GUI智能体OmniParser二代开源!推理延迟降低60%,大模型玩手机更溜了

[复制链接]
周大 发表于 2025-3-7 15:51:36 | 显示全部楼层 |阅读模式
OmniParser V2是一款将屏幕截图转换为结构化元素的新工具,能显著提高大型语言模型(LLM)对图形用户界面(GUI)的理解和操作能力。该版本在检测小图标方面准确率更高,推理延迟降低了60%,并在多个基准测试中表现出色。通过使用Set-of-Marks方法和构建专用数据集,OmniParser V2优化了可交互区域检测。此外,配套工具OmniTool支持与多种先进LLM集成,以实现更高效的GUI自动化。研究团队还采取了负责任的AI实践以确保安全性。
来源:https://mp.weixin.qq.com/s/snWwF9mL9C-kKYr_h0nHxw

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-4-20 02:36 , Processed in 0.286209 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表