大模型多轮对话性能暴跌39%,易陷“对话迷失”困境
研究人员通过超过20万次模拟实验揭示,大模型在多轮对话中的表现较单轮对话平均下降39%,这一现象被称为“对话迷失”。实验设计了多种对话模拟类型,发现性能下降主要源于多轮对话的不明确性,而非信息丢失。较小模型在合并对话中的表现下降更显著,表明其泛化能力不足。此外,增加测试时的计算量或生成更长回答,并未有效改善多轮对话的表现,反而可能加剧模型的认知混淆。研究为优化大模型在真实场景中的对话能力提供了重要参考。来源:https://mp.weixin.qq.com/s/MkhQseSajFnnrn0M_EtCSg
页:
[1]