更懂国内APP的开源智能体!感知/定位/推理/中文能力全面提升,还能自己学会操作
浙江大学与美团联合团队开源多模态智能体UItron,具备自动操作手机、电脑及浏览器的能力,能模拟人类执行复杂多步任务。该智能体在GUI感知、任务定位和规划执行方面表现出色,在ScreenspotV2、Android-Control等主流榜单中分别获得92.0和92.9的高分,并在OSWorld上取得24.9分(15 Steps),性能领先。尤其在中文环境下,UItron通过对月活前100 App的优化,在中文场景评测中表现突出。UItron构建了系统性的数据工程与交互环境基建,采用三阶段训练策略,涵盖监督微调与强化学习,为多模态智能体研究提供开源基础模型,推动人机交互技术发展。来源:https://mp.weixin.qq.com/s/mz6St2XYlruaUt_ZiLXxYQ
页:
[1]