Deepseek新模型意外曝光!编程跑分一举超越Claude 3.5 Sonnet
Deepseek-v3意外发布并迅速崭露头角,在Aider多语言编程测试及LiveBench测评中表现优异,成为当前最强开源大模型之一。该模型采用685B参数MoE架构,较前代在多项参数上有显著提升,并引入sigmoid门控函数及noaux_tc Top-k选择方法等新技术。尽管尚未正式官宣,其实际测试结果已引起广泛关注,但在训练数据来源方面存在一定争议。来源:https://mp.weixin.qq.com/s/gxelchvaWA9Mo9YxZlT2fg
页:
[1]