robots文件的另类用法,你一定不知道

2020-06-19 08:37 栏目:行业动态 查看()
    robots文件是什么,相信我就不用过多的赘述。相信大家对于robots文件的设置也是有着自己的体系,那么今天我们来谈谈那些robots文件的另类的用法吧!

   众所周知,当搜索引擎蜘蛛访问一个网站的时候,它会首先访问网站根目录下的robots.txt文件,如果该文件存在,蜘蛛会按照该文件中限定的访问范围来访问网站;如果该文件不存在,那么蜘蛛会收到一个404的返回值,之后会返回网站进行抓取。在这里,斑竹建议各位没有做robots文件的站长们,还是做一下robots文件,哪怕是一个空文件也比给蜘蛛返回一个404来得好,因为从微观上来讲,蜘蛛寻找robots文件也是需要消耗资源的,而我们却很有必要为蜘蛛节省资源。
   如果是新站,我们可以把网站重要的目录用Allow命令在robots文件中罗列出来,这样蜘蛛就会优先抓取那些目录,而不用进入你网站去根据链接关系爬取了,因为蜘蛛的时间很宝贵,我们必须把我们最好的东西优先拿出来给蜘蛛看,正所谓有朋自远方来,不亦说乎?新站蜘蛛停留都不会太久,只能是尽可能的把我们网站重要的页面给蜘蛛看。

    在页面质量没有问题的前提下,内页不被收录的原因只有一个:蜘蛛没来抓取!此时,我们就可以把未收录的页面同样用Allow命令写进robots文件,蜘蛛不就来了吗!

    如果网站被挂马的话,也可以研究下病毒文件的命名规则,直接在robots文件里面禁止抓取,这样就可以快速地从搜索引擎中删除那些收录的垃圾信息页面了。当然保险起见,还可以去站长平台提交死链。

    
扫二维码与项目经理沟通

我们在微信上24小时期待你的声音

解答本文疑问/技术咨询/运营咨询/技术建议/互联网交流

郑重申明:常州捷效信息技术有限公司以外的任何单位或个人,不得使用该案例作为工作成功展示!