DeepSeek R1增强版：推理效率快200%，创新AoE架构

周大发表于 2025-7-4 15:42:53

德国TNG公司开源新型大模型DeepSeek-TNG-R1T2-Chimera，基于DeepSeek多个版本构建，采用创新的AoE架构，通过合并父模型权重张量提升性能。测试表明其推理效率较原版提升200%，成本降低，在MTBench等基准测试中表现更佳，展现出高效灵活的模型融合潜力。
来源：https://tech.ifeng.com/c/8kfafrUTabk

页: [1]

靠浦ai课堂's Archiver

DeepSeek R1增强版：推理效率快200%，创新AoE架构