1000亿数据集增强文化多样性

[复制链接]
周大 发表于 2025-3-9 14:50:08 | 显示全部楼层 |阅读模式
谷歌发布1000亿文本-图像对数据集WebLI-100B,尽管在传统基准测试中未显著提升模型性能,但显著增强了文化多样性和多语言能力,特别是对小语种(如泰卢固语)的支持。研究表明,扩大数据规模可有效提升低资源语言的表现,而常用的数据过滤器(如CLIP)可能会无意中限制数据集的多样性。这项研究强调了构建真正包容的多模态系统的重要性,为未来AI模型的发展提供了新思路。
来源:https://mp.weixin.qq.com/s/YHKKdF_e0NrzKGpW2kmTjA

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-6-12 18:59 , Processed in 0.287098 second(s), 22 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表