受DeepSeek-R1启发,小米大模型团队登顶音频推理MMAU榜
小米大模型团队在音频推理领域取得重大突破,受DeepSeek-R1启发,首次将强化学习应用于多模态音频理解任务,并以64.5%的准确率登顶MMAU评测榜首,超越GPT-4o和Gemini 2.0 Flash等顶尖模型。实验表明,强化学习在小规模数据集上的表现优于监督学习,并使7B参数模型展现出强推理能力。尽管距离人类专家水平(82.23%)仍有差距,但此次研究验证了强化学习的独特价值,为智能听觉时代奠定了基础。小米已同步开源相关代码和技术报告。来源:https://tech.ifeng.com/c/8hnEPWsbzYA
页:
[1]