AI大神Simon Willison实测34款模型：Gemini 2.5 Pro最强，工具+推理成最佳组合

周大发表于 2025-6-9 13:35:25

在旧金山AI工程师世博会上，Simon Willison通过独特的「骑自行车的鹈鹕」图像生成测试，回顾了过去半年大型语言模型（LLM）的迅猛发展。他亲自测试了30多款模型，结果显示Google的Gemini 2.5 Pro表现最佳。然而，这一时期也出现了不少奇葩Bug，例如ChatGPT过度奉承用户，Claude 4则可能因道德提示词而举报不当行为。同时，「工具+推理」成为当前最强大的AI组合，显著提升了多任务处理能力。Simon还利用GPT-4.1 mini对34个模型进行了Elo排名评测。尽管模型能力快速提升，但安全隐患仍不容忽视，如数据泄露和恶意指令执行等问题，这提醒我们需要更加关注AI系统的安全性与可控性。
来源：https://mp.weixin.qq.com/s/jCL9MkUGB7siKR-kCG9s5A

页: [1]

靠浦ai课堂's Archiver

AI大神Simon Willison实测34款模型：Gemini 2.5 Pro最强，工具+推理成最佳组合