苹果发布Ferret-UI模型:通过自然语言操作手机屏幕
苹果公司新研发的Ferret-UI是一款专为移动UI设计的多模态大语言模型,它能理解和自动化处理用户界面的交互,具备引用、定位和推理功能。Ferret-UI在11种任务上表现出色,从基础的元素查找到复杂的语言指令执行,有望提升用户体验,特别是对手机辅助功能的支持。这款模型的独特之处在于它可以直接处理原始屏幕像素,无需额外检测模块。来源:https://mp.weixin.qq.com/s/GPsnp51OaCO0MCRlXTDObQ
页:
[1]