「古董」GPU也能跑DeepSeek同款GRPO！显存只需1/10，上下文爆涨10倍

周大发表于 2025-3-10 15:24:22

开源微调工具Unsloth再次优化GRPO训练算法，在保持精度不变的情况下，将上下文长度扩大10倍，显存需求降低至原来的1/10。新版本可使Qwen2.5（1.5B）模型在5GB显存的老旧GPU上完成训练。与标准实现相比，该算法在处理20K上下文长度时，VRAM使用量减少了90%，从510.8GB降至54.3GB。这一突破得益于三项技术创新，包括内存高效线性算法等，极大降低了长上下文推理的硬件门槛。
来源：https://mp.weixin.qq.com/s/9rFinH1LCW5yja6LeK6Rfw

页: [1]

靠浦ai课堂's Archiver

「古董」GPU也能跑DeepSeek同款GRPO！显存只需1/10，上下文爆涨10倍