OTC‑PO重磅发布 | 揭开 o3 神秘面纱,让 Agent 少用工具、多动脑子!

[复制链接]
周大 发表于 前天 14:41 | 显示全部楼层 |阅读模式
香港中文大学博士生王鸿儒提出强化学习框架 OTC-PO,优化 Agent 工具使用行为,解决模型过度依赖外部工具的问题。研究表明,认知卸载现象随模型增大而加剧,但 OTC-PO 能显著提升工具生产力(最高 256.9%),同时保持准确率。该方法通过最小化工具调用次数,激发模型推理能力,实现智能与效率的双重提升,为构建类似 OpenAI 的 o3 模型提供了可行路径。
来源:https://mp.weixin.qq.com/s/YyhRnaw-vEc--GOy8Y_jXA

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-5-9 07:39 , Processed in 0.276695 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表