周大 发表于 2025-5-26 14:48:37

红杉中国发布xbench,首个由投资机构打造的AI基准测试

红杉中国推出全新AI基准测试xbench,针对当前AI基准测试难以真实反映AI能力的问题,采用双轨评估体系与长青评估机制,同时追踪AI理论能力上限与实际效用价值。首期测评集涵盖科学问题解答与中文互联网深度搜索,并提出垂直领域评测方法论。xbench通过动态更新题目缓解过拟合问题,设计横向对比指标观察AI发展速度,助力判断市场落地阈值,官网已上线首期测评结果并开放社区共建。
来源:https://tech.ifeng.com/c/8jfDhJJpvq7
页: [1]
查看完整版本: 红杉中国发布xbench,首个由投资机构打造的AI基准测试