FP8模型不再挑卡！DeepSeek推理成本减半速度翻番，清华团队开源「赤兔」推理引擎

周大发表于 2025-3-14 14:55:37

清华系企业清程极智与清华大学联合开源大模型推理引擎「赤兔」，实现非 H 卡设备运行 FP8 模型的重大突破。测试显示，赤兔引擎在 A800 集群上部署 DeepSeek-671B 模型时，较 vLLM 方案减少 50% GPU 使用量并提升 3.15 倍速度。该引擎支持多种硬件，提供全场景可伸缩解决方案，助力国产芯片快速适配新模型架构，推动 AI 技术自主可控发展。
来源：https://mp.weixin.qq.com/s/Ev9x6AWGF4S6zQpPpWtg9g

		自动登录	找回密码
密码			立即注册

课程导航

FP8模型不再挑卡！DeepSeek推理成本减半速度翻番，清华团队开源「赤兔」推理引擎