庞若鸣还有苹果论文？改善预训练高质量数据枯竭困境

周大发表于 2025-9-23 14:51:55

苹果前基础模型负责人庞若鸣参与的研究提出“合成自举预训练”（SBP），应对大模型面临的数据枯竭挑战。该方法通过挖掘文档间的跨文本关联，利用合成数据增强训练，实验显示在200B至1T token规模下，性能提升相当于拥有20倍更多真实数据的模型的47%。SBP不依赖外部模型，具备高数据效率和理论可解释性，为语言模型可持续发展提供了新路径。
来源：https://mp.weixin.qq.com/s/0RK2b-2y5_8_etb38LKYJA

		自动登录	找回密码
密码			立即注册

课程导航

庞若鸣还有苹果论文？改善预训练高质量数据枯竭困境