更懂国内APP的开源智能体!感知/定位/推理/中文能力全面提升,还能自己学会操作

[复制链接]
周大 发表于 2025-8-31 14:04:02 | 显示全部楼层 |阅读模式
浙江大学与美团联合团队开源多模态智能体UItron,具备自动操作手机、电脑及浏览器的能力,能模拟人类执行复杂多步任务。该智能体在GUI感知、任务定位和规划执行方面表现出色,在ScreenspotV2、Android-Control等主流榜单中分别获得92.0和92.9的高分,并在OSWorld上取得24.9分(15 Steps),性能领先。尤其在中文环境下,UItron通过对月活前100 App的优化,在中文场景评测中表现突出。UItron构建了系统性的数据工程与交互环境基建,采用三阶段训练策略,涵盖监督微调与强化学习,为多模态智能体研究提供开源基础模型,推动人机交互技术发展。
来源:https://mp.weixin.qq.com/s/mz6St2XYlruaUt_ZiLXxYQ

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-9-27 18:36 , Processed in 0.276316 second(s), 22 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表