X(原推特)已经屏蔽除谷歌以外的所有搜索引擎以阻止数据被抓取 – 蓝点网
7 月初埃隆马斯克带领的原已经有搜 X 曾屏蔽谷歌搜索爬虫抓取内容,这导致谷歌搜索无法在用户搜索 X 用户名时展示最新的推特推文摘要,不过后面 X 对谷歌解封了。屏蔽
但其他搜索引擎就没那么幸运了,除谷如果使用 site:twitter.com 指令在必应搜索上查询的歌外话,你会发现必应收录的索引 X 内容只有 12.1 万条,而谷歌搜索则是擎阻 4.22 亿条。
发生了什么?止数抓原因是 X 屏蔽了除谷歌搜索以外的所有搜索引擎爬虫,至于原因嘛也很简单,据被埃隆马斯克不想 X 的蓝点数据被其他人抓取拿去训练 AI,所有屏蔽了诸如 Bingbot、原已经有搜MSNbot、推特Yandex 等搜索引擎爬虫。屏蔽


那谷歌为什么是例外的呢?估计马斯克都要骂街了,因为之前有传闻称杰克多西时代的歌外推特与谷歌达成了相关协议,允许谷歌抓取内容,目前这一协议尚未到期。
蓝点网通过互联网档案馆排查发现,X 是在 2023 年 7 月 24 日执行屏蔽操作的,更新后的 robots.txt 文件仅允许 Googlebot 抓取内容,其他所有爬虫均被封禁。
所以现在诸如必应搜索上的推特内容极少也就是这个原因,后面估计索引数量会进一步降低,如果谷歌的协议到期了估计内容也都会消失。
不过 robots.txt 毕竟只是君子协定 (这不是法律规定,之前某大数字被某度起诉抓取某度百科内容时,就辩称这是 robots.txt 只是行业管理而非法律规定),所以仍然有各种来路不明的爬虫试图抓取推特上的内容拿去卖数据。
对于这种情况埃隆马斯克也早有准备,在协议规定未经同意获取内容属于违反协议的行为,马斯克对这些未经同意的抓取行为直接起诉。
附 X robots.txt 的最新内容:
# Google Search Engine Robot# ==========================User-agent: GooglebotAllow: /?_escaped_fragment_Allow: /*?lang=Allow: /hashtag/*?src=Allow: /search?q=%23Allow: /i/api/Disallow: /search/realtimeDisallow: /search/usersDisallow: /search/*/gridAllow: /*?ref_src=Allow: /*?src=Disallow: /*?Disallow: /*/followersDisallow: /*/followingDisallow: /account/deactivatedDisallow: /settings/deactivated# 下面的指令代表禁止搜索爬虫抓取内容# ========================================================User-agent: *Disallow: /
(责任编辑:传统文化)
- ·我国仓储与订货协会成立时间(我国仓储与订货协会与纺织工业杂志社发展战略合作签下典礼暨)不要告诉别人,
- ·感悟人逝世细辟短句心灵感悟100字?飞奔人逝世金句
- ·大年夜熊猫幼崽啃食旅客掉降降心罩 网友吸吁:文明游园
- ·起亚EV9官图发布 定位纯电中大型SUV/续航里程超540公里
- ·建立企业中文网站服务费(深入细致探究腾讯网络营销强化,提升中文网站名列的五大关键基本功)这都可以?,
- ·兰博基尼LB744车身结构信息曝光 扭转刚度超越Aventador
- ·第50万辆比亚迪宋PLUS新能源下线 里程碑时刻
- ·2022少沙湘江悲乐水寨闭园了吗
- ·重庆企业T8300控制系统(中文网站工程建设的两个关键性基本要素)蔬果满满的,
- ·感概人逝世典范语句人逝世最励志短句2024/1/6人逝世感悟扎心短句
- ·腾讯发送App(腾讯Bazelle名列强化)细看就会,
- ·2022北京看白叶的处所保举 那20个处所没有但驰名间隔也没有远
- ·吐鲁番必往十大年夜景面保举 吐鲁番最值得往的景面
- ·一天一句小感慨人逝世活着感悟的句子戴德女母的细辟漫笔
- ·甚么样建立中文网站讲义(甚么是蝎子池?腾讯加速收录于)细看就会,
- ·大年夜教逝世网人逝世十悟句句典范!致糊心的唯好句子
- ·日本猴子以小公主名字定名 王室粉丝抗议德律风挨爆园圆
- ·人逝世感悟图片大年夜齐人逝世感悟致本身简短2024年1月3日
- ·蝎子池基本原理(打造出互联网国际品牌,从网易浏览器强化已经开始)这都能,
- ·最透辟的人逝世感悟一天一句小感慨2024年1月8日












