AI圈水太深:OpenAI保密、Meta作弊!国产MoE却异军突起

[复制链接]
周大 发表于 2025-7-16 14:41:56 | 显示全部楼层 |阅读模式
自2019年GPT-2问世以来,大语言模型参数规模呈指数级增长,从百亿跃升至数万亿级别。GPT-3以1750亿参数奠定“大模型”基础,而后续版本信息趋于封闭。开源模型LLaMA系列持续追赶,LLaMA 3.1达4050亿参数,并引入退火训练提升表现。2025年Meta发布的LLaMA-4旗舰模型Behemoth参数高达2万亿,但未公开,其轻量版本更因“作弊”风波引发质疑。与此同时,MoE架构迅速崛起,如DeepSeek V3 Base以6710亿参数、14.8万亿token训练数据实现性能飞跃。多模态、多语言能力成为新趋势,但模型评估标准仍不明确。专家呼吁回归基础模型本质,重视文本生成能力,而非盲目追求benchmark高分。
来源:https://mp.weixin.qq.com/s/-cESLnUMZ958h0W1i_xJPA

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-8-23 15:05 , Processed in 0.278639 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表