周大 发表于 2024-8-22 15:01:48

防止内容被抓取训练AI:百度百科屏蔽谷歌/必应等搜索引擎

百度百科近期更新了其robots.txt文件,开始屏蔽谷歌、必应等大多数搜索引擎的爬虫,仅允许百度搜索、搜狗搜索等少数搜索引擎访问其内容。这一举措旨在防止未经授权的抓取行为用于AI训练。尽管360搜索未在封禁列表中,但由于默认禁止非白名单爬虫,实际上也被屏蔽。然而,这种方法可能只能限制合法爬虫,难以完全阻止内容被抓取。
来源:https://tech.ifeng.com/c/8cFdsd8yDPe
页: [1]
查看完整版本: 防止内容被抓取训练AI:百度百科屏蔽谷歌/必应等搜索引擎