还是原装Transformer好!北大清华团队同时揭示Mamba等推理短板
北京大学和清华大学的研究团队发现,尽管思维链(CoT)显著提升了Transformer在数学任务上的表现,但Mamba等高效模型在使用CoT时,其推理能力与标准Transformer存在明显差距。北大团队证明,Sparse Transformer等模型在解决动态规划问题时的时间复杂度与标准Transformer相同。清华团队则证明,RNN模型使用CoT后仍无法完成某些任务,而Transformer可以。来源:https://mp.weixin.qq.com/s/9QsjiccHtHkrxZApQbVJ3Q
页:
[1]