4090单卡跑满血版DeepSeek-R1,清华团队开源项目再破大模型推理门槛
清华大学KVCache.AI团队与趋境科技发布的KTransformers开源项目更新,成功解决了DeepSeek-R1满血版(671B参数)在24G显存环境下的本地运行难题。通过GPU/CPU异构计算划分、4bit量化等技术,预处理速度最高达286 tokens/s,推理生成速度最高达14 tokens/s。该项目兼容多种API,降低使用门槛,受到开发者广泛关注,在localLLaMa社区持续位居热榜第一,极大推动了大模型的“家庭化”。来源:https://mp.weixin.qq.com/s/UjsaPDeCfW8QUYTCUZmVxA
页:
[1]