豆包升级视觉推理功能,支持图像分析、联网搜索与链式思考

[复制链接]
周大 发表于 2025-7-31 13:38:09 | 显示全部楼层 |阅读模式
豆包最新升级的视觉语言模型(VLM)在“深度思考”模式下新增图像分析工具调用功能,支持放大、裁剪、旋转等操作,并能结合图文检索识别地标、酒店、电视剧截图等内容。模型展现出链式推理能力,可逻辑化解析图形智力题。不同于以往国产大模型的猜测式识别,豆包通过“看清—分析—验证”的流程提升识别可靠性,且所有功能均对用户免费。此前类似功能仅见于收费模型如o3和o4-mini,豆包此次升级在国产VLM中走在前列。
来源:https://mp.weixin.qq.com/s/SlVqrtSOPq9D8gQrlfdyZQ

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-8-22 20:27 , Processed in 0.290281 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表