周大 发表于 2024-12-26 14:49:01

Deepseek新模型意外曝光!编程跑分一举超越Claude 3.5 Sonnet

Deepseek-v3意外发布并迅速崭露头角,在Aider多语言编程测试及LiveBench测评中表现优异,成为当前最强开源大模型之一。该模型采用685B参数MoE架构,较前代在多项参数上有显著提升,并引入sigmoid门控函数及noaux_tc Top-k选择方法等新技术。尽管尚未正式官宣,其实际测试结果已引起广泛关注,但在训练数据来源方面存在一定争议。
来源:https://mp.weixin.qq.com/s/gxelchvaWA9Mo9YxZlT2fg
页: [1]
查看完整版本: Deepseek新模型意外曝光!编程跑分一举超越Claude 3.5 Sonnet