Kimi开源全新音频基础模型,横扫十多项基准测试,总体性能第一
Kimi-Audio 是一款全新通用音频基础模型,支持语音识别、音频理解等多任务,在十多个基准测试中表现卓越,WER 低至 1.28%,VocalSound 测试接近满分。其集成式架构包含音频分词器、大模型与去分词器,基于 1300 万小时数据预训练并微调优化。研究人员还开发了评估工具包,助力公平对比。目前,相关代码与工具已在 Github 开源。来源:https://mp.weixin.qq.com/s/hbecvcn6qe4WO2LyqkS-iA
页:
[1]