通用的dLLM开发框架,让BERT掌握扩散式对话

[复制链接]
周大 发表于 5 天前 | 显示全部楼层 |阅读模式
伯克利与UIUC团队提出dLLM框架,通过离散扩散与轻量指令微调(SFT),仅用约50 GPU·小时即让ModernBERT-large-chat-v0(0.4B)在多项任务上性能逼近Qwen1.5-0.5B。实验证明无需额外生成式预训练,SFT已足以激活BERT生成能力。团队开源全流程代码与模型,并提供可复现的“Hello World”示例,推动扩散语言模型的教学与研究普及。
来源:https://mp.weixin.qq.com/s/bEGnzL6nwMweK7eH8uWQ5w

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-11-28 00:44 , Processed in 0.244486 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表