腾讯等机构推出首个开源多模态大模型 VITA

周大发表于 2024-8-14 16:35:33

腾讯优图实验室等机构推出 VITA，首个开源多模态大语言模型，能处理视频、图像、文本及音频，具备先进交互体验。基于 Mixtral 8×7B，增强汉语理解能力，并通过多模态对齐与微调，实现视觉与音频理解。VITA 在多模态基准测试中表现出色，支持自然流畅的人机交互。
来源：https://mp.weixin.qq.com/s/_ILH_GZaKMUlRaqsZBU0Eg

页: [1]

靠浦ai课堂's Archiver

腾讯等机构推出首个开源多模态大模型 VITA