豆包升级视觉推理功能，支持图像分析、联网搜索与链式思考

周大发表于 2025-7-31 13:38:09

豆包最新升级的视觉语言模型（VLM）在“深度思考”模式下新增图像分析工具调用功能，支持放大、裁剪、旋转等操作，并能结合图文检索识别地标、酒店、电视剧截图等内容。模型展现出链式推理能力，可逻辑化解析图形智力题。不同于以往国产大模型的猜测式识别，豆包通过“看清—分析—验证”的流程提升识别可靠性，且所有功能均对用户免费。此前类似功能仅见于收费模型如o3和o4-mini，豆包此次升级在国产VLM中走在前列。
来源：https://mp.weixin.qq.com/s/SlVqrtSOPq9D8gQrlfdyZQ

页: [1]

靠浦ai课堂's Archiver

豆包升级视觉推理功能，支持图像分析、联网搜索与链式思考