LLM模型广泛存在高蒸馏度现象
中国科学院深圳先进技术研究院等机构的研究者在新论文中指出,除Claude、豆包和Gemini外,知名闭源和开源LLM大多存在高蒸馏度。研究通过响应相似度评估(RSE)和身份一致性评估(ICE)两种方法测试多个模型,发现部分模型如llama 3.1、Qwen-Max等在声明身份时出现矛盾,表现出高蒸馏度。虽然蒸馏能提升模型能力,但会导致同质化并损害处理复杂任务的能力。实验结果显示GLM4-Plus、Qwen-Max和Deepseek-V3具有更高的蒸馏程度,而Claude3.5-Sonnet、Doubao-Pro-32k蒸馏可能性较低。来源:https://mp.weixin.qq.com/s/GdwH7jxK2T_Vhus2ZvwQbw
页:
[1]