谷歌Gemini 2.5 Pro新版登顶大模型竞技场,但发布两小时即遭越狱,安全问题引关注
谷歌发布的Gemini 2.5 Pro新版本(0605)在多项任务中表现出色,特别是在“人类最后的考试”中取得21.6%的成绩,超越o3和Claude 4 Opus。新版本Elo评分较上月提升24分,并在长文本处理、事实性测试及视觉能力上处于领先地位。此外,Gemini的价格显著低于竞品,但发布仅两小时即被越狱,暴露了安全性漏洞。部分用户反馈其在编程和长文本处理上的表现相较早期版本有所退步,引发了关于模型稳定性和优化方向的讨论。来源:https://mp.weixin.qq.com/s/8dMQKl7HrjPVCXVZY7dtrg
页:
[1]