字节突然开源Seed-OSS,512K上下文碾压主流4倍长度!推理能力刷新纪录

[复制链接]
周大 发表于 昨天 13:55 | 显示全部楼层 |阅读模式
字节跳动Seed团队开源了360亿参数的大模型Seed-OSS-36B,采用Apache-2.0协议支持学术与商业使用。该模型具备原生512K上下文窗口,是当前主流模型的4倍,并引入“思考预算”机制,可灵活控制推理深度。其架构使用RoPE、GQA、SwiGLU等成熟技术,提供含/不含合成指令数据的两个版本。在多项基准测试中表现优异,如MMLU-Pro 65.1分、BBH 87.7分、GSM8K 90.8分,且仅用12T token训练。Seed-OSS是该团队首个开源基座语言模型,此前已开源多个细分模型,涵盖代码、多模态、训练框架和语音翻译等领域。
来源:https://mp.weixin.qq.com/s/cr8Q7jlHm-7sCcAcrvUcCg

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-8-22 04:12 , Processed in 0.297646 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表