字节开源全面代码评估基准FullStack Bench

[复制链接]
周大 发表于 2024-12-5 14:16:22 | 显示全部楼层 |阅读模式
字节开源了代码大模型评估基准FullStack Bench,其中包含了此前未披露的Doubao-Coder预览版。该基准是最全面的代码评估数据集,涵盖11类真实场景和16种编程语言,包含3374个问题。团队还开源了代码沙盒执行工具SandboxFusion,支持23种编程语言,可在单服务器上部署。评测结果显示,闭源模型在解决难题方面普遍优于开源模型,SandboxFusion提供的反馈上下文可以有效提升模型表现。
来源:https://mp.weixin.qq.com/s/EHFPamyxRda-qMuWWbtcVg

学员登陆|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2024-12-23 23:55 , Processed in 0.300242 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表