新算法AssistanceZero提升AI协作能力

[复制链接]
周大 发表于 2025-4-12 15:00:37 | 显示全部楼层 |阅读模式
加州大学伯克利分校开发的新技术AssistanceZero,采用“assistance games”强化学习框架,旨在克服RLHF的局限性。该技术通过扩展AlphaZero算法,结合蒙特卡洛树搜索与神经网络进行决策,在MBAG测试中显著优于传统算法PPO。研究显示,AssistanceZero不仅能有效减少人类操作数量,还能从纠正中学习,展现出接近人类水平的表现,为复杂问题解决提供了新思路。
来源:https://mp.weixin.qq.com/s/Md2FJh0IQ3X-ztpRW4G5mA

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-5-9 18:34 , Processed in 0.289805 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表