周大 发表于 2025-2-26 14:07:01

微软开源多模态AI Agent Magma

微软凌晨宣布开源多模态AI Agent基础模型Magma。该模型采用视觉与大语言模型混合架构,具备处理图像、视频、文本等数据的跨域能力,能完成从自动下订单到操控实体机器人的任务。其内置的心理预测功能可增强对视频中时空动态的理解。Magma使用ConvNeXt编码视觉信息,结合SoM和ToM技术分别实现精准定位和轨迹预测,极大拓展了AI的应用场景。
来源:https://tech.ifeng.com/c/8hGASoZP48o
页: [1]
查看完整版本: 微软开源多模态AI Agent Magma