周大 发表于 2024-8-14 16:35:33

腾讯等机构推出首个开源多模态大模型 VITA

腾讯优图实验室等机构推出 VITA,首个开源多模态大语言模型,能处理视频、图像、文本及音频,具备先进交互体验。基于 Mixtral 8×7B,增强汉语理解能力,并通过多模态对齐与微调,实现视觉与音频理解。VITA 在多模态基准测试中表现出色,支持自然流畅的人机交互。
来源:https://mp.weixin.qq.com/s/_ILH_GZaKMUlRaqsZBU0Eg
页: [1]
查看完整版本: 腾讯等机构推出首个开源多模态大模型 VITA