Llama模仿Diffusion多模态涨分30%!不卷数据不烧卡,只需共享注意力分布
Lavender系统,通过模仿Stable Diffusion的交叉注意力机制,使多模态大模型(如Llama-3.2)性能大幅提升。仅用1天训练和2.5%常规数据量,性能提升30%,特别是在分布外医学任务上提升68%。该系统采用LoRA技术防止过拟合,在16项视觉-语言任务中超越当前最优模型50%,并在未专门训练的医学领域表现出色。此外,代码、模型和训练数据已全部开源。来源:https://mp.weixin.qq.com/s/9qlXXGXTKh9GVNMG6V58eA
页:
[1]