中国大模型首登Nature封面!DeepSeek首次披露:R1训练只花了200万
DeepSeek R1登上《Nature》封面,成为首家获此荣誉的中国大模型公司。其660B参数模型训练成本仅约29.4万美元,使用512张H800 GPU完成。论文披露了数学、编程等五大类共15.4万道训练题目,并通过同行评审验证其强化学习方法的有效性。R1在AIME 2024上实现71.0%的pass@1准确率,开源后Hugging Face下载量达1090万次,GitHub Star超91K,谷歌学术引用3596次,安全性评估与GPT-4o相当,标志着中国大模型在科研影响力与透明度方面取得重要突破。来源:https://mp.weixin.qq.com/s/FlbZ-ZRsEF-4aBwlJttMog
页:
[1]