百度蜘蛛如何甄别,如何禁止百度蜘蛛抓取呢?

未知 次数

很多刚入门的seo人员,为了获取更多的蜘蛛来爬去到自己的网站上,用了很多方法,蜘蛛确实有涨,但是他们到网站日志里面查看后,却不知道那些是真正的百度蜘蛛,很难甄别出来,以为都是百度来的真蜘蛛,其实有很大不是的,接下来南帝seo就为大家讲解一下如何识别真假百度蜘蛛。
 
一、百度蜘蛛介绍
百度蜘蛛其实就是百度一个搜索引擎的一个自动化程序,用这个程序专门收录抓取整理互联网上面的网页、图片视频等内容,再然后进行分类管理建立索引数据库,然后再根据百度的一套算法判断,网上的那些图片、网页、视频等内容可以释放出来。百度蜘蛛其实就是这样一个搜索引擎工作原理。

二、那么,如何甄别百度蜘蛛呢

这个如何识别百度蜘蛛,不要道听途说,还是按照官方的说法来搞,目前百度对外的有:
1.查看UA,如果UA都不对,可以直接判断非百度搜索的蜘蛛,目前对外公布过的UA是:
 
移动UA:Mozilla/5.0 (Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML,like Gecko) Version/5.1 Mobile Safari/10600.6.3 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)
 
PC UA:Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)
 
新增渲染UA:
移动UA:Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 
 
Mobile/13B143 Safari/601.1 (compatible; Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html)
 
PC UA:Mozilla/5.0 (compatible; Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html)
 
小程序UA:
Mozilla/5.0 (iPhone;CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko)Version/9.0 Mobile/13B143 
 
Safari/601.1 (compatible; Baiduspider-render/2.0;Smartapp; +http://www.baidu.com/search/spider.html)
 
2.反查IP
站长可以通过DNS反查IP的方式判断某只spider是否来自百度搜索引擎。根据平台不同验证方法不同,如linux/windows/os三种平台下的验证方法
 
分别如下:
 
1).在linux平台下,您可以使用host ip命令反解ip来判断是否来自Baiduspider的抓取。Baiduspider的hostname以 *.baidu.com 或 *.baidu.jp 的格式命名,非 *.baidu.com 或 *.baidu.jp 即为冒充。
 
2).在windows平台或者IBM OS/2平台下,您可以使用nslookup ip命令反解ip来 判断是否来自Baiduspider的抓取。打开命令处理器 输nslookup xxx.xxx.xxx.xxx(IP地 址)就能解析ip, 来判断是否来自Baiduspider的抓取,Baiduspider的hostname以*.baidu.com 或*.baidu.jp 的格式命名,非 *.baidu.com 或 *.baidu.jp 即为冒充。
 
3).在mac os平台下,您可以使用dig 命令反解ip来 判断是否来自Baiduspider的抓取。打开命令处理器 输入dig xxx.xxx.xxx.xxx(IP地 址)就能解析ip, 来判断是否来自Baiduspider的抓取,Baiduspider的hostname以 *.baidu.com 或*.baidu.jp 的格式命名,非 *.baidu.com 或 *.baidu.jp 即为冒充。
 
以上就是百度公布出来的,如果你查看网站日志直面访问的ip蜘蛛不是这些的话,那只能说要么是360的、神马的,要么是假蜘蛛。严重的是黑客搞的假蜘蛛来爬去你网站,进行非法窃取你网站的行为。所以会分析百度蜘蛛来路的真假非常重要。
 
三、如何增加百度蜘蛛抓取量呢?
1、进行外部发布链接获取,就是通过不同外部网站渠道进行外链发布吸引百度蜘蛛等来爬去到自己的网站上面来,增加网站的pr值,来获取网站的信任度值,可以持续的发布,来增加网站的蜘蛛派去量。
 
2、可以进行网站内部的链接,就是所谓的内链,这样也可以让蜘蛛进行大量的抓取,可以通过内链不停的进行抓取,只要抓取的过程中么有死链就行了。不然会影响抓取深度和速度。
 
 
四、如何禁止百度蜘蛛进行抓取?
这个其实最好的就是在网站根目录下有个“robots.txt”文件在里面进行设置,让那些程序文件禁止百度蜘蛛抓取,那些程序文件可以抓取,这样就是一个好的方法,还可以在meta标签里面进行声明,那些是能抓取的那些是不能抓取的,都可以设置的。
 
五、百度蜘蛛抓取深度和网页秒收有什么关系
如果蜘蛛能深入的抓取你网站更深层目录页面的话,说明你网站信任度值可以,同时也说明你网站页面质量这块还不错,既然经常都保持这样都不错的话,没有理由不秒收的,所以这就是蜘蛛和秒收的关系,都是相互的,因和果的关系。
 
总结:关于百度蜘蛛如何甄别,如何禁止百度蜘蛛抓取和访问,上面已经阐述,其实增加蜘蛛抓去量的话,还有一些其他的方法,不懂的可以私下问我