字节开源全面代码评估基准FullStack Bench

周大发表于 2024-12-5 14:16:22

字节开源了代码大模型评估基准FullStack Bench，其中包含了此前未披露的Doubao-Coder预览版。该基准是最全面的代码评估数据集，涵盖11类真实场景和16种编程语言，包含3374个问题。团队还开源了代码沙盒执行工具SandboxFusion，支持23种编程语言，可在单服务器上部署。评测结果显示，闭源模型在解决难题方面普遍优于开源模型，SandboxFusion提供的反馈上下文可以有效提升模型表现。
来源：https://mp.weixin.qq.com/s/EHFPamyxRda-qMuWWbtcVg

页: [1]

靠浦ai课堂's Archiver

字节开源全面代码评估基准FullStack Bench