还是原装Transformer好!北大清华团队同时揭示Mamba等推理短板

[复制链接]
周大 发表于 2024-10-20 14:59:29 | 显示全部楼层 |阅读模式
北京大学和清华大学的研究团队发现,尽管思维链(CoT)显著提升了Transformer在数学任务上的表现,但Mamba等高效模型在使用CoT时,其推理能力与标准Transformer存在明显差距。北大团队证明,Sparse Transformer等模型在解决动态规划问题时的时间复杂度与标准Transformer相同。清华团队则证明,RNN模型使用CoT后仍无法完成某些任务,而Transformer可以。
来源:https://mp.weixin.qq.com/s/9QsjiccHtHkrxZApQbVJ3Q

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-5-17 21:35 , Processed in 0.263831 second(s), 22 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表