4090单卡跑满血版DeepSeek-R1，清华团队开源项目再破大模型推理门槛

周大发表于 2025-2-12 14:18:40

清华大学KVCache.AI团队与趋境科技发布的KTransformers开源项目更新，成功解决了DeepSeek-R1满血版（671B参数）在24G显存环境下的本地运行难题。通过GPU/CPU异构计算划分、4bit量化等技术，预处理速度最高达286 tokens/s，推理生成速度最高达14 tokens/s。该项目兼容多种API，降低使用门槛，受到开发者广泛关注，在localLLaMa社区持续位居热榜第一，极大推动了大模型的“家庭化”。
来源：https://mp.weixin.qq.com/s/UjsaPDeCfW8QUYTCUZmVxA

页: [1]

靠浦ai课堂's Archiver

4090单卡跑满血版DeepSeek-R1，清华团队开源项目再破大模型推理门槛