周大 发表于 2024-12-5 14:16:22

字节开源全面代码评估基准FullStack Bench

字节开源了代码大模型评估基准FullStack Bench,其中包含了此前未披露的Doubao-Coder预览版。该基准是最全面的代码评估数据集,涵盖11类真实场景和16种编程语言,包含3374个问题。团队还开源了代码沙盒执行工具SandboxFusion,支持23种编程语言,可在单服务器上部署。评测结果显示,闭源模型在解决难题方面普遍优于开源模型,SandboxFusion提供的反馈上下文可以有效提升模型表现。
来源:https://mp.weixin.qq.com/s/EHFPamyxRda-qMuWWbtcVg
页: [1]
查看完整版本: 字节开源全面代码评估基准FullStack Bench