周大 发表于 前天 14:41

OTC‑PO重磅发布 | 揭开 o3 神秘面纱,让 Agent 少用工具、多动脑子!

香港中文大学博士生王鸿儒提出强化学习框架 OTC-PO,优化 Agent 工具使用行为,解决模型过度依赖外部工具的问题。研究表明,认知卸载现象随模型增大而加剧,但 OTC-PO 能显著提升工具生产力(最高 256.9%),同时保持准确率。该方法通过最小化工具调用次数,激发模型推理能力,实现智能与效率的双重提升,为构建类似 OpenAI 的 o3 模型提供了可行路径。
来源:https://mp.weixin.qq.com/s/YyhRnaw-vEc--GOy8Y_jXA
页: [1]
查看完整版本: OTC‑PO重磅发布 | 揭开 o3 神秘面纱,让 Agent 少用工具、多动脑子!