周大 发表于 2024-12-21 14:43:46

苹果正在与英伟达合作,想让AI的响应速度更快

苹果与英伟达合作推出ReDrafter推测解码技术,以优化大语言模型(LLM)推理效率。ReDrafter通过RNN草稿模型、动态树注意力算法和知识蒸馏三项核心技术实现加速。其中,RNN草稿模型可同时生成多个token序列,动态树注意力算法减少待验证tokens 30%-60%,知识蒸馏则提升了小模型的预测准确性。测试结果显示,在NVIDIA H100 GPU上推理速度提升2.7倍,在M2 Ultra Metal GPU上提升2.3倍,显著降低计算成本和用户端延迟。
来源:https://www.huxiu.com/article/3817861.html
页: [1]
查看完整版本: 苹果正在与英伟达合作,想让AI的响应速度更快