根据我们的研究

kexej28769@nongnue · Post by **kexej28769@nongnue** » Mon Feb 17, 2025 11:35 am

全部 RLD 被阻止。
正如前面所讨论的，各种 robots.txt 条目的一个主要问题是它们会阻碍 PageRank 的流动。如果 Google 可以看到某个网站，他们就可以通过该网站的出站域传递来自其他网站上的引用域的链接资产。如果某个站点被 robots.txt 屏蔽，就好像通往该站点的所有道路上的所有出站车道都被屏蔽了。通过计算所有入站车道的流量，我们可以估计对链路图的总体影响。越低越好。

Majestic 最终有 17,787,118 个引用域，Ahrefs 有 20,072,690 个，Moz 有 16,598,365 个。同样，Moz 的 robots.txt 配置文件与 Google 的类似。但引用域名并不是我们需要关心的唯一问题。

总页数被阻止。
网络上的大多数页面只有内部链接。谷歌对构建链埃及 WhatsApp 数据接图不感兴趣——他们对构建搜索引擎感兴趣。因此，设计为像 Google 一样工作的机器人需要担心仅获取内部链接的页面和获取外部链接的页面一样多。我们可以测量的另一个指标是使用 Google 网站阻止的页面总数：用于估计 Google 可以访问但其他爬虫无法访问的页面数量的查询。那么，竞争激烈的行业爬虫表现如何呢？越低越好。

Moz 再一次在这个指标上大放异彩。这不仅仅是 Moz 被更少的网站屏蔽——Moz 被不太重要和较小的网站屏蔽。 Majestic 丢失了 675,381,982 个页面，Ahrefs 丢失了 732,871,714 个页面，Moz 丢失了 658,015,885 个页面。仅在网络上前一百万个网站中，Ahrefs 和 Moz 之间就存在约 8000 万个页面的差异。

独特的网站被封锁。
Moz、Majestic 和 Ahrefs 面临的大多数 robots.txt 反对都是对不代表主要搜索引擎的所有机器人的全面封锁。但是，我们可以隔离特定机器人被故意指定排除而竞争对手仍然存在的时间。例如，当 Ahrefs 和 Majestic 被允许时，Moz 有多少次被屏蔽？哪个机器人被选择最多？越低越好。