FP8模型不再挑卡!DeepSeek推理成本减半速度翻番,清华团队开源「赤兔」推理引擎

[复制链接]
周大 发表于 2025-3-14 14:55:37 | 显示全部楼层 |阅读模式
清华系企业清程极智与清华大学联合开源大模型推理引擎「赤兔」,实现非 H 卡设备运行 FP8 模型的重大突破。测试显示,赤兔引擎在 A800 集群上部署 DeepSeek-671B 模型时,较 vLLM 方案减少 50% GPU 使用量并提升 3.15 倍速度。该引擎支持多种硬件,提供全场景可伸缩解决方案,助力国产芯片快速适配新模型架构,推动 AI 技术自主可控发展。
来源:https://mp.weixin.qq.com/s/Ev9x6AWGF4S6zQpPpWtg9g

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-4-6 16:48 , Processed in 0.269990 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表