周大 发表于 2025-2-17 15:04:51

Llama模仿Diffusion多模态涨分30%!不卷数据不烧卡,只需共享注意力分布

Lavender系统,通过模仿Stable Diffusion的交叉注意力机制,使多模态大模型(如Llama-3.2)性能大幅提升。仅用1天训练和2.5%常规数据量,性能提升30%,特别是在分布外医学任务上提升68%。该系统采用LoRA技术防止过拟合,在16项视觉-语言任务中超越当前最优模型50%,并在未专门训练的医学领域表现出色。此外,代码、模型和训练数据已全部开源。
来源:https://mp.weixin.qq.com/s/9qlXXGXTKh9GVNMG6V58eA
页: [1]
查看完整版本: Llama模仿Diffusion多模态涨分30%!不卷数据不烧卡,只需共享注意力分布