用LLaVA解读数万神经元，大模型竟然自己打开了多模态智能黑盒

周大发表于 2024-12-7 14:21:32

新加坡南洋理工大学LMMs-Lab团队开发了一种新方法，利用“模型看模型”的方式，使用LLaVA-OV-72B解读LLaVA-NeXT-8B中的神经元。该方法通过稀疏自编码机（SAEs）将多语义神经元解离为单语义神经元，并用更大模型进行解释，提高了多模态大模型的可解释性。研究发现，通过刺激特定神经元，可以减少模型的幻觉现象，提高安全性。此外，该方法还发现了许多情感神经元和多模态一致性神经元，有助于理解模型的智能产生机制。
来源：https://mp.weixin.qq.com/s/r-MJLNXTDy4WyENl3JjCBw

		自动登录	找回密码
密码			立即注册

课程导航

用LLaVA解读数万神经元，大模型竟然自己打开了多模态智能黑盒