新算法AssistanceZero提升AI协作能力
加州大学伯克利分校开发的新技术AssistanceZero,采用“assistance games”强化学习框架,旨在克服RLHF的局限性。该技术通过扩展AlphaZero算法,结合蒙特卡洛树搜索与神经网络进行决策,在MBAG测试中显著优于传统算法PPO。研究显示,AssistanceZero不仅能有效减少人类操作数量,还能从纠正中学习,展现出接近人类水平的表现,为复杂问题解决提供了新思路。来源:https://mp.weixin.qq.com/s/Md2FJh0IQ3X-ztpRW4G5mA
页:
[1]