周大 发表于 2025-3-14 14:55:37

FP8模型不再挑卡!DeepSeek推理成本减半速度翻番,清华团队开源「赤兔」推理引擎

清华系企业清程极智与清华大学联合开源大模型推理引擎「赤兔」,实现非 H 卡设备运行 FP8 模型的重大突破。测试显示,赤兔引擎在 A800 集群上部署 DeepSeek-671B 模型时,较 vLLM 方案减少 50% GPU 使用量并提升 3.15 倍速度。该引擎支持多种硬件,提供全场景可伸缩解决方案,助力国产芯片快速适配新模型架构,推动 AI 技术自主可控发展。
来源:https://mp.weixin.qq.com/s/Ev9x6AWGF4S6zQpPpWtg9g
页: [1]
查看完整版本: FP8模型不再挑卡!DeepSeek推理成本减半速度翻番,清华团队开源「赤兔」推理引擎