周大 发表于 2025-2-10 13:45:22

人类自愧不如 :DeepSeek R1、o3-mini和Gemini 2.0思考过程大横评

通过对o3-mini、DeepSeek R1和Gemini 2.0 Flash Thinking三大推理模型进行涵盖逻辑推理、字母识别、创意文本生成等七大任务的对比测试发现,在创意文本生成和多模态推理等任务中,各模型表现各异。其中,DeepSeek R1的推理过程最接近人类思维方式,输出内容完整深入;Gemini 2.0 Flash Thinking思维链系统化且条理清晰;而o3-mini的思维链透明度较低,更像是对问题和答案的重复总结。
来源:https://tech.ifeng.com/c/8gr5IOvNge8
页: [1]
查看完整版本: 人类自愧不如 :DeepSeek R1、o3-mini和Gemini 2.0思考过程大横评