清华大学研究团队提出了一种新型的可配置基础模型(Configurable Foundation Model),打破了传统大模型在预训练阶段需要引入模块化结构约束的限制。该模型将大模型拆分为预训练阶段的涌现模块和后训练阶段的定制模块,通过模块的检索、组合、更新和增长,实现高效、可复用、可溯源、可扩展和分布式计算的优势。研究团队通过分析通用生成式大模型,验证了其稀疏激活、功能分化和功能分区特性,并开发了多种定制模块,如知识插件、长文本记忆插件和加速插件,显著提升了模型的性能。
来源:https://mp.weixin.qq.com/s/9Yr5FFoBLcGQizTAbxCZVw