「古董」GPU也能跑DeepSeek同款GRPO!显存只需1/10,上下文爆涨10倍

[复制链接]
周大 发表于 2025-3-10 15:24:22 | 显示全部楼层 |阅读模式
开源微调工具Unsloth再次优化GRPO训练算法,在保持精度不变的情况下,将上下文长度扩大10倍,显存需求降低至原来的1/10。新版本可使Qwen2.5(1.5B)模型在5GB显存的老旧GPU上完成训练。与标准实现相比,该算法在处理20K上下文长度时,VRAM使用量减少了90%,从510.8GB降至54.3GB。这一突破得益于三项技术创新,包括内存高效线性算法等,极大降低了长上下文推理的硬件门槛。
来源:https://mp.weixin.qq.com/s/9rFinH1LCW5yja6LeK6Rfw

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-6-12 18:45 , Processed in 0.288068 second(s), 22 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表