苹果发布Ferret-UI模型:通过自然语言操作手机屏幕

[复制链接]
周大 发表于 2024-5-20 15:17:56 | 显示全部楼层 |阅读模式
苹果公司新研发的Ferret-UI是一款专为移动UI设计的多模态大语言模型,它能理解和自动化处理用户界面的交互,具备引用、定位和推理功能。Ferret-UI在11种任务上表现出色,从基础的元素查找到复杂的语言指令执行,有望提升用户体验,特别是对手机辅助功能的支持。这款模型的独特之处在于它可以直接处理原始屏幕像素,无需额外检测模块。
来源:https://mp.weixin.qq.com/s/GPsnp51OaCO0MCRlXTDObQ

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-4-9 02:25 , Processed in 0.291174 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表