Deepseek新模型意外曝光!编程跑分一举超越Claude 3.5 Sonnet

[复制链接]
周大 发表于 2024-12-26 14:49:01 | 显示全部楼层 |阅读模式
Deepseek-v3意外发布并迅速崭露头角,在Aider多语言编程测试及LiveBench测评中表现优异,成为当前最强开源大模型之一。该模型采用685B参数MoE架构,较前代在多项参数上有显著提升,并引入sigmoid门控函数及noaux_tc Top-k选择方法等新技术。尽管尚未正式官宣,其实际测试结果已引起广泛关注,但在训练数据来源方面存在一定争议。
来源:https://mp.weixin.qq.com/s/gxelchvaWA9Mo9YxZlT2fg

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-4-22 16:14 , Processed in 0.292324 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表