「古董」GPU也能跑DeepSeek同款GRPO!显存只需1/10,上下文爆涨10倍
开源微调工具Unsloth再次优化GRPO训练算法,在保持精度不变的情况下,将上下文长度扩大10倍,显存需求降低至原来的1/10。新版本可使Qwen2.5(1.5B)模型在5GB显存的老旧GPU上完成训练。与标准实现相比,该算法在处理20K上下文长度时,VRAM使用量减少了90%,从510.8GB降至54.3GB。这一突破得益于三项技术创新,包括内存高效线性算法等,极大降低了长上下文推理的硬件门槛。来源:https://mp.weixin.qq.com/s/9rFinH1LCW5yja6LeK6Rfw
页:
[1]