强化学习也涌现?自监督RL扩展到1000层网络,机器人任务提升50倍
普林斯顿大学与华沙理工研究表明,将对比强化学习网络扩展至1000层可大幅提升性能,在机器人任务中最高提效50倍。研究通过增加数据量、融合自监督学习与残差连接等技术实现深度扩展,揭示了深度网络在复杂任务中的优势及新行为涌现现象。尽管计算成本较高,但该方法展现了深层网络在强化学习领域的潜力,并为未来优化提供了方向。来源:https://mp.weixin.qq.com/s/jharVbDajhmWmSfpTjstWg
页:
[1]