苏黎世联邦理工新研究实现AI幻觉实时检测,Llama-3.3-70B模型AUC达0.90

[复制链接]
周大 发表于 2025-9-10 14:31:31 | 显示全部楼层 |阅读模式
苏黎世联邦理工学院与 MATS 的研究人员提出了一种可扩展的幻觉检测方法,能实时识别大语言模型生成文本中的幻觉实体。该方法通过构建 LongFact++ 数据集并使用线性探针与 LoRA 探针训练分类器,在长文本(如 LongFact、HealthBench)和短文本(如 TriviaQA)任务中均表现出色,AUC 值最高达 0.90,显著优于现有方法。研究还发现该方法具备识别数学推理错误的泛化能力。尽管检测性能已大幅提升,但在实际高风险场景应用前仍有改进空间。研究团队已公开数据集与代码,以推动幻觉检测技术的发展。
来源:https://mp.weixin.qq.com/s/sYLvDQ7p7jjQcctGyA5hFg

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-9-27 16:25 , Processed in 0.294330 second(s), 22 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表