推理模型新路线开源!抛弃思维链不用人类语言思考
开源推理大模型新架构Huginn发布,抛弃长思维链和人类语言,在高维潜空间用隐藏状态推理。该模型具有自适应思考时间、无需专门训练数据等优势。研究使用Frontier超算及4096块AMD GPU完成。Huginn由Prelude、Recurrent Block、Coda三部分组成,3.5B参数模型训练量等效于传统32B模型,且性能不输更大参数量模型。此研究已引起业内广泛关注。来源:https://mp.weixin.qq.com/s/HK6fjolKDcHG6MD_cVgifg
页:
[1]