豆包升级视觉推理功能,支持图像分析、联网搜索与链式思考
豆包最新升级的视觉语言模型(VLM)在“深度思考”模式下新增图像分析工具调用功能,支持放大、裁剪、旋转等操作,并能结合图文检索识别地标、酒店、电视剧截图等内容。模型展现出链式推理能力,可逻辑化解析图形智力题。不同于以往国产大模型的猜测式识别,豆包通过“看清—分析—验证”的流程提升识别可靠性,且所有功能均对用户免费。此前类似功能仅见于收费模型如o3和o4-mini,豆包此次升级在国产VLM中走在前列。来源:https://mp.weixin.qq.com/s/SlVqrtSOPq9D8gQrlfdyZQ
页:
[1]