周大 发表于 2025-3-9 14:50:08

1000亿数据集增强文化多样性

谷歌发布1000亿文本-图像对数据集WebLI-100B,尽管在传统基准测试中未显著提升模型性能,但显著增强了文化多样性和多语言能力,特别是对小语种(如泰卢固语)的支持。研究表明,扩大数据规模可有效提升低资源语言的表现,而常用的数据过滤器(如CLIP)可能会无意中限制数据集的多样性。这项研究强调了构建真正包容的多模态系统的重要性,为未来AI模型的发展提供了新思路。
来源:https://mp.weixin.qq.com/s/YHKKdF_e0NrzKGpW2kmTjA
页: [1]
查看完整版本: 1000亿数据集增强文化多样性