杜克大学等研究者提出三招锁定LLM“命门句子”,助力提高模型可靠性
杜克大学与Aiphabet的研究人员提出从句子层面解析LLM推理过程的新方法,识别出对推理路径起决定作用的“思维锚”句子。通过黑盒反事实分析、注意力模式识别和注意力抑制三种互补技术,研究发现“规划生成”和“不确定性管理”类句子对最终输出影响显著。案例显示,模型在解决十六进制转二进制问题时能自我纠正错误,并形成逻辑回路。该研究提升了对LLM内部机制的理解,为增强模型可靠性提供了新思路,并配套发布了开源可视化工具。来源:https://mp.weixin.qq.com/s/h2nR_MB-9kGxw-NbBJh48Q
页:
[1]