南昌QQ群

作者: seo 分类: 蜘蛛池 发布时间: 2019-07-04 12:12

  一般我们的网站能在百度等搜索引擎上搜到,说明该搜索引擎的爬虫爬到了我们的网站并且被搜索引擎收录。

  全世界有成千上万的搜索引擎,当然不一定只有搜索引擎才有爬虫蜘蛛。那么每天有这么多蜘蛛访问我们的网站,肯定对网站的产生一些影响,比如流量的损失、占用服务器资源等,严重者甚至造成服务器宕机。

  所我们要认识这些蜘蛛,那些对我们是有用的,我们要欢迎。那些是对我们无益的,我们就把它屏蔽掉。

  通过 robots.txt 可以屏蔽无用的蜘蛛,参考我的这篇文章:Robots协议探究:如何好好利用爬虫

  常见的百度蜘蛛有:Baiduspider 和 Baiduspider-image(抓取图片)。国内网站大多数流量都来自百度,所以推荐放行。

  常见的谷歌蜘蛛有:Googlebot,还一个Googlebot-Mobile ,不是很常见,看名字是应该是抓取 wap 页面的。世界第一大搜索引擎,推荐放行。

  必应是微软的搜索引擎,微软的IE浏览器和Edge浏览器会默认使用该搜索引擎,而且占有率也还可以,不建议屏蔽。

  该蜘蛛抓取频率还是很高的,很多人并不看好,不过如果屏蔽的话,会损失 UC浏览器的流量来源。自己斟酌吧!

  JikeSpider(即刻蜘蛛):“即刻搜索”是由人民搜索网络股份公司于2011年6月20日推出的通用搜索引擎平台,建议屏蔽。

  EasouSpider(宜搜蜘蛛):宜搜是主要针对手机端的搜索引擎,非常傻帽的一个爬虫,建议屏蔽之。

  MJ12bot:英国的一个搜索引擎,官方解释为:成千上万的企业使用13种语言和60多个国家来绘制互联网地图,独立于基于消费者的搜索引擎。

  DOCOMO Sprider:日本 NTT DoCoMo 旗下的搜索引擎蜘蛛,是垃圾搜索引擎爬虫,有看到你的日志里面有这只蜘蛛,直接毫不犹豫的禁掉。

  常用的搜索引擎就那么几个,只要在 robots.txt 文件里把常用的搜索引擎蜘蛛放进来就行,其它的可以统统屏蔽。

如果觉得我的文章对您有用,请随意打赏。您的支持将鼓励我继续创作!