Scaling Laws终结,量化无用,AI大佬都在审视这篇论文
一项新研究《Scaling Laws for Precision》指出,训练 token 越多,所需的精度越高。专家认为,AI 大模型的扩展可能达到极限,未来发展方向包括扩大数据中心规模、动态扩展和知识提炼。英伟达的新计算卡 Blackwell 支持 8 位训练,但 8 位精度对大模型可能不足。研究发现,低精度训练和推理影响模型质量和成本,提出了“精度感知”扩展定律。低精度训练降低了模型的有效参数数量,导致性能下降。此外,低精度预训练对训练后量化的“增强”作用有限。来源:https://mp.weixin.qq.com/s/JhtOlj5Y4UYM3W3koeMmqw
页:
[1]