清华团队革新MoE架构!像搭积木一样构建大模型,提出新型类脑稀疏模块化架构

[复制链接]
周大 发表于 2024-11-2 14:40:52 | 显示全部楼层 |阅读模式
清华大学研究团队提出了一种新型的可配置基础模型(Configurable Foundation Model),打破了传统大模型在预训练阶段需要引入模块化结构约束的限制。该模型将大模型拆分为预训练阶段的涌现模块和后训练阶段的定制模块,通过模块的检索、组合、更新和增长,实现高效、可复用、可溯源、可扩展和分布式计算的优势。研究团队通过分析通用生成式大模型,验证了其稀疏激活、功能分化和功能分区特性,并开发了多种定制模块,如知识插件、长文本记忆插件和加速插件,显著提升了模型的性能。
来源:https://mp.weixin.qq.com/s/9Yr5FFoBLcGQizTAbxCZVw

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-9-17 02:43 , Processed in 0.288137 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表