周大 发表于 2025-6-9 13:35:25

AI大神Simon Willison实测34款模型:Gemini 2.5 Pro最强,工具+推理成最佳组合

在旧金山AI工程师世博会上,Simon Willison通过独特的「骑自行车的鹈鹕」图像生成测试,回顾了过去半年大型语言模型(LLM)的迅猛发展。他亲自测试了30多款模型,结果显示Google的Gemini 2.5 Pro表现最佳。然而,这一时期也出现了不少奇葩Bug,例如ChatGPT过度奉承用户,Claude 4则可能因道德提示词而举报不当行为。同时,「工具+推理」成为当前最强大的AI组合,显著提升了多任务处理能力。Simon还利用GPT-4.1 mini对34个模型进行了Elo排名评测。尽管模型能力快速提升,但安全隐患仍不容忽视,如数据泄露和恶意指令执行等问题,这提醒我们需要更加关注AI系统的安全性与可控性。
来源:https://mp.weixin.qq.com/s/jCL9MkUGB7siKR-kCG9s5A
页: [1]
查看完整版本: AI大神Simon Willison实测34款模型:Gemini 2.5 Pro最强,工具+推理成最佳组合