Being-VL的视觉BPE路线：把「看」和「说」真正统一起来

周大发表于 2025-10-9 14:21:01

北大、UC San Diego 与 BeingBeyond 联合提出 Being-VL，通过视觉 BPE 将图像离散化并延后语言对齐，在同一序列中统一建模视觉与文本 token。该方法采用频次与空间一致性联合的 Priority-Guided Encoding 构建视觉词表，并通过三阶段渐进解冻训练减少模态鸿沟。实验显示，其在保留视觉细节、提升抗幻觉能力方面优于传统方法，且中等规模词表在效率与性能间取得平衡，Being-VL-0.5 进一步完善为具备扩展潜力的统一多模态框架。
来源：https://mp.weixin.qq.com/s/c53EDKSD8yGPcqDOAdU6Cg

		自动登录	找回密码
密码			立即注册

课程导航

Being-VL的视觉BPE路线：把「看」和「说」真正统一起来