微软开源多模态AI Agent Magma

[复制链接]
周大 发表于 2025-2-26 14:07:01 | 显示全部楼层 |阅读模式
微软凌晨宣布开源多模态AI Agent基础模型Magma。该模型采用视觉与大语言模型混合架构,具备处理图像、视频、文本等数据的跨域能力,能完成从自动下订单到操控实体机器人的任务。其内置的心理预测功能可增强对视频中时空动态的理解。Magma使用ConvNeXt编码视觉信息,结合SoM和ToM技术分别实现精准定位和轨迹预测,极大拓展了AI的应用场景。
来源:https://tech.ifeng.com/c/8hGASoZP48o

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-5-15 00:35 , Processed in 0.290779 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表