AI圈水太深：OpenAI保密、Meta作弊！国产MoE却异军突起

周大发表于 2025-7-16 14:41:56

自2019年GPT-2问世以来，大语言模型参数规模呈指数级增长，从百亿跃升至数万亿级别。GPT-3以1750亿参数奠定“大模型”基础，而后续版本信息趋于封闭。开源模型LLaMA系列持续追赶，LLaMA 3.1达4050亿参数，并引入退火训练提升表现。2025年Meta发布的LLaMA-4旗舰模型Behemoth参数高达2万亿，但未公开，其轻量版本更因“作弊”风波引发质疑。与此同时，MoE架构迅速崛起，如DeepSeek V3 Base以6710亿参数、14.8万亿token训练数据实现性能飞跃。多模态、多语言能力成为新趋势，但模型评估标准仍不明确。专家呼吁回归基础模型本质，重视文本生成能力，而非盲目追求benchmark高分。
来源：https://mp.weixin.qq.com/s/-cESLnUMZ958h0W1i_xJPA

		自动登录	找回密码
密码			立即注册

课程导航

AI圈水太深：OpenAI保密、Meta作弊！国产MoE却异军突起