性能比肩DeepSeek-R1,MiniMax仅花380万训出推理大模型性价比新王
国产推理大模型MiniMax开源了最新成果MiniMax-M1,该模型支持100万token输入长度(为DeepSeek R1的8倍),并实现8万token输出(超Gemini 2.5 Pro)。其推理效率显著提升,生成10万token时算力需求仅为DeepSeek R1的25%。通过512块H800 GPU,团队仅用3周完成强化学习训练,成本约为53.47万美元。MiniMax-M1在多个基准测试中表现优异,甚至超越OpenAI o3和Claude 4 Opus。技术上采用Lightning Attention混合架构和CISPO算法,优化长链推理能力。模型权重已开放下载,并集成到MiniMax Chat网页版供试玩。此外,“MiniMaxWeek”活动将持续推出更多内容。来源:https://mp.weixin.qq.com/s/FHis_2BmwtfA7yOe45Rdxg
页:
[1]