周大 发表于 2024-7-22 15:29:10

Llama 3.1意外泄露!405B参数 Meta启动Llama 4训练

HuggingFace泄露页面曝光了Llama 3.1 405B模型,该模型为纯文本模型,拥有128k上下文长度,分为8B、70B和405B三个版本。405B版本为密集型参数,未采用MoE架构。部分用户已收到测试邀请,预计7月23日发布。而Llama 4已开始训练,使用Facebook和Instagram的公开数据,欧盟用户可选择是否参与。Llama 4将包含多种模态,计划应用于手机和智能眼镜。
来源:https://mp.weixin.qq.com/s/KobaHrgqDLJF_Z92jJ-GSQ
页: [1]
查看完整版本: Llama 3.1意外泄露!405B参数 Meta启动Llama 4训练