周大 发表于 2024-9-23 15:21:26

仅用4块GPU、不到3天训练出「开源版GPT-4o」LLaMA-Omni实现低延迟语音交互

中国科学院团队研发的LLaMA-Omni模型实现了与大型语言模型(LLM)的低延迟语音交互,响应延迟低至226ms。该模型由语音编码器、适配器、LLM和流式语音解码器组成,无需生成中间文本。实验结果显示,LLaMA-Omni在内容和风格评分上优于其他模型,解码时间和响应延迟表现优异。
来源:https://mp.weixin.qq.com/s/6SEsQqd9265A2CycOul9fA
页: [1]
查看完整版本: 仅用4块GPU、不到3天训练出「开源版GPT-4o」LLaMA-Omni实现低延迟语音交互