周大 发表于 2024-10-20 14:59:29

还是原装Transformer好!北大清华团队同时揭示Mamba等推理短板

北京大学和清华大学的研究团队发现,尽管思维链(CoT)显著提升了Transformer在数学任务上的表现,但Mamba等高效模型在使用CoT时,其推理能力与标准Transformer存在明显差距。北大团队证明,Sparse Transformer等模型在解决动态规划问题时的时间复杂度与标准Transformer相同。清华团队则证明,RNN模型使用CoT后仍无法完成某些任务,而Transformer可以。
来源:https://mp.weixin.qq.com/s/9QsjiccHtHkrxZApQbVJ3Q
页: [1]
查看完整版本: 还是原装Transformer好!北大清华团队同时揭示Mamba等推理短板