周大 发表于 2025-7-4 15:42:53

DeepSeek R1增强版:推理效率快200%,创新AoE架构

德国TNG公司开源新型大模型DeepSeek-TNG-R1T2-Chimera,基于DeepSeek多个版本构建,采用创新的AoE架构,通过合并父模型权重张量提升性能。测试表明其推理效率较原版提升200%,成本降低,在MTBench等基准测试中表现更佳,展现出高效灵活的模型融合潜力。
来源:https://tech.ifeng.com/c/8kfafrUTabk
页: [1]
查看完整版本: DeepSeek R1增强版:推理效率快200%,创新AoE架构