大模型数字处理能力仍需提升,NUPA基准集揭示短板
北京大学张牧涵团队提出 NUPA 基准集,评估大模型的数字理解和处理能力。测试显示,大模型在常见任务和较短数字长度上表现良好,但在复杂任务和长数字时性能显著下降。研究发现,较小的分词器(k=1)和改进的位置编码有助于提升性能。微调可显著提高模型表现,但微调阶段的技术调整效果不佳。思维链技术在某些任务上表现优异,但计算成本高,受显存和上下文长度限制。来源:https://mp.weixin.qq.com/s/ifqQspMHgC7Tp6r381lyoQ
页:
[1]