还是原装Transformer好！北大清华团队同时揭示Mamba等推理短板

周大发表于 2024-10-20 14:59:29

北京大学和清华大学的研究团队发现，尽管思维链（CoT）显著提升了Transformer在数学任务上的表现，但Mamba等高效模型在使用CoT时，其推理能力与标准Transformer存在明显差距。北大团队证明，Sparse Transformer等模型在解决动态规划问题时的时间复杂度与标准Transformer相同。清华团队则证明，RNN模型使用CoT后仍无法完成某些任务，而Transformer可以。
来源：https://mp.weixin.qq.com/s/9QsjiccHtHkrxZApQbVJ3Q

页: [1]

靠浦ai课堂's Archiver

还是原装Transformer好！北大清华团队同时揭示Mamba等推理短板