这个文件的主要问题是什么?
追踪器没有义务遵循你的指示。
一般来说,“好的”爬虫程序(比如我们都知道的搜索引擎里的爬虫程序)都会遵循 robots.txt 文件中的命令,但是……我们的敌人不是这些爬虫程序,而是那些产生过多不必要流量的爬虫程序。
而且,正如您可能已经猜到的那样,心怀恶在 robots.txt 中输入的内容。
这就像在我们家门上挂一块“禁止进入”的标志:任何没有抢劫意图的人都 奥地利 WhatsApp 数据 不会进入,但小偷甚至不会停下来读一下它。
robots.txt 命令对于爬虫来说不是强制性的,因此我们不能使用它来阻止不必要的流量。
那么,如果它最终不能起到过滤垃圾邮件的作用,为什么我要提到这个文件呢?
因为,即使在今天,你仍然可以找到不少文章将robots.txt文件描述为一种控制方法,以防止爬虫访问web服务器上的部分或全部文件夹和文件。
因此,请忘记将此文件作为过滤不需要的流量的方法,而专注于接下来的流量。
► 通过.htaccess 文件
与robots.txt一样,.htaccess文件也是一个存储在网络服务器上的文本文件,包含一系列指令和命令。