苹果正在与英伟达合作,想让AI的响应速度更快

[复制链接]
周大 发表于 前天 14:43 | 显示全部楼层 |阅读模式
苹果与英伟达合作推出ReDrafter推测解码技术,以优化大语言模型(LLM)推理效率。ReDrafter通过RNN草稿模型、动态树注意力算法和知识蒸馏三项核心技术实现加速。其中,RNN草稿模型可同时生成多个token序列,动态树注意力算法减少待验证tokens 30%-60%,知识蒸馏则提升了小模型的预测准确性。测试结果显示,在NVIDIA H100 GPU上推理速度提升2.7倍,在M2 Ultra Metal GPU上提升2.3倍,显著降低计算成本和用户端延迟。
来源:https://www.huxiu.com/article/3817861.html

学员登陆|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2024-12-23 08:05 , Processed in 0.269839 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表