LLM模型广泛存在高蒸馏度现象

[复制链接]
周大 发表于 2025-1-30 11:20:13 | 显示全部楼层 |阅读模式
中国科学院深圳先进技术研究院等机构的研究者在新论文中指出,除Claude、豆包和Gemini外,知名闭源和开源LLM大多存在高蒸馏度。研究通过响应相似度评估(RSE)和身份一致性评估(ICE)两种方法测试多个模型,发现部分模型如llama 3.1、Qwen-Max等在声明身份时出现矛盾,表现出高蒸馏度。虽然蒸馏能提升模型能力,但会导致同质化并损害处理复杂任务的能力。实验结果显示GLM4-Plus、Qwen-Max和Deepseek-V3具有更高的蒸馏程度,而Claude3.5-Sonnet、Doubao-Pro-32k蒸馏可能性较低。
来源:https://mp.weixin.qq.com/s/GdwH7jxK2T_Vhus2ZvwQbw

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-4-21 07:38 , Processed in 0.289539 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表