马里兰大学提出新型深度循环语言模型
马里兰大学提出新型深度循环语言模型,仅35亿参数却能匹敌500亿参数模型性能。该模型采用迭代循环结构,在Hugging Face平台一月下载超4500次。与主流思维链模型不同,它无需专门训练数据,可处理难以言表的任务。实验表明其在数学、编程等复杂推理任务中表现优异,尤其在GSM8k数学推理测试中成绩远超其他模型。此外,该模型还展示了自适应计算、KV缓存共享等多项特性,有望成为未来AI研究的重要方向。来源:https://mp.weixin.qq.com/s/WGszi-BKl50jQj8j7X0PYQ
页:
[1]