4090单卡跑满血版DeepSeek-R1,清华团队开源项目再破大模型推理门槛

[复制链接]
周大 发表于 2025-2-12 14:18:40 | 显示全部楼层 |阅读模式
清华大学KVCache.AI团队与趋境科技发布的KTransformers开源项目更新,成功解决了DeepSeek-R1满血版(671B参数)在24G显存环境下的本地运行难题。通过GPU/CPU异构计算划分、4bit量化等技术,预处理速度最高达286 tokens/s,推理生成速度最高达14 tokens/s。该项目兼容多种API,降低使用门槛,受到开发者广泛关注,在localLLaMa社区持续位居热榜第一,极大推动了大模型的“家庭化”。
来源:https://mp.weixin.qq.com/s/UjsaPDeCfW8QUYTCUZmVxA

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-5-14 20:22 , Processed in 0.280977 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表