周大 发表于 2025-7-16 14:41:56

AI圈水太深:OpenAI保密、Meta作弊!国产MoE却异军突起

自2019年GPT-2问世以来,大语言模型参数规模呈指数级增长,从百亿跃升至数万亿级别。GPT-3以1750亿参数奠定“大模型”基础,而后续版本信息趋于封闭。开源模型LLaMA系列持续追赶,LLaMA 3.1达4050亿参数,并引入退火训练提升表现。2025年Meta发布的LLaMA-4旗舰模型Behemoth参数高达2万亿,但未公开,其轻量版本更因“作弊”风波引发质疑。与此同时,MoE架构迅速崛起,如DeepSeek V3 Base以6710亿参数、14.8万亿token训练数据实现性能飞跃。多模态、多语言能力成为新趋势,但模型评估标准仍不明确。专家呼吁回归基础模型本质,重视文本生成能力,而非盲目追求benchmark高分。
来源:https://mp.weixin.qq.com/s/-cESLnUMZ958h0W1i_xJPA
页: [1]
查看完整版本: AI圈水太深:OpenAI保密、Meta作弊!国产MoE却异军突起