开源1.6B小模型「小狐狸」,表现超同类模型Qwen和Gemma

[复制链接]
周大 发表于 2024-12-8 18:13:30 | 显示全部楼层 |阅读模式
TensorOpera 发布开源小语言模型 FOX,参数量仅为 16 亿,但通过多种优化技术在多个任务中表现出色,尤其在 GSM8k 任务中优势明显。FOX 采用解码器架构,通过共享嵌入、预归一化、旋转式位置编码等技术提升性能,同时在推理效率上表现出色,每秒可处理超过 200 个 token,所需 GPU 内存较少。这一成果为小语言模型在智能体领域的应用提供了新的思路。
来源:https://mp.weixin.qq.com/s/7xLr-z_KPpU0b7b4nd66oA

学员登陆|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2024-12-23 19:32 , Processed in 0.271674 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表