如何正确识别Baiduspider-爱开源

经常听到有人抱怨百度蜘蛛爬的太频繁导致服务器被跑挂了，大部分情况下那些不是真的百度蜘蛛，而是一些采集站点来爬内容，这里替百度觉得冤。辨别爬虫是否是百度的，不单单看主机头，毕竟浏览器头信息是可以伪造的，一般我们通过DNS反向解析能更好的判断当前IP是否为真实的百度spider。

当然不能排除有些站点确实是被搜索引擎spider拖垮的，不过不能只抱怨爬虫，能被拖垮，说明自身做得不够好，检查下程序哪里有瓶颈，该优化的优化该加机器的加机器，如果你不是靠搜索引擎活下来的，那么你可以毫不犹豫的直接屏蔽搜索引擎。

想更好了解网站情况，可以加入百度站长（zhanzhang.baidu.com），可以设置索引压力、提交sitemap以及站点状况信息等等。

如下内容摘自百度站长，关于如何辨别真实百度spider的方法。

上周百度站长平台接到某站长求助，表示误封禁了Baiduspider的IP，询问是否有办法获得Baiduspider的所有IP，打算放入白名单加以保护，防止再次误封。在此要告诉各位站长，Baiduspider的IP池是不断变动的，我们无法提供IP全集。

除此之外，之前还有站长发来质疑说Baiduspider光顾过于频繁，已超越服务器承受能力。而百度站长平台追查发现，Baiduspider对该站点的抓取并无异常，那只spider极有可能是个李鬼。

那么，站长该如何通过IP来判断此spider是不是来自百度搜索引擎的呢？

可以通过DNS反查方式来解决这个问题。根据平台不同验证方法不同，如linux/windows/os三种平台下的验证方法分别如下：

1、在linux平台下，您可以使用host ip命令反解ip来判断是否来自Baiduspider的抓取。Baiduspider的hostname以 *.baidu.com 或 *.baidu.jp 的格式命名，非 *.baidu.com 或 *.baidu.jp 即为冒充。

维日.jpg

2、在windows平台或者IBM OS/2平台下，您可以使用nslookup ip命令反解ip来判断是否来自Baiduspider的抓取。打开命令处理器输入nslookup xxx.xxx.xxx.xxx（IP地址）就能解析ip，来判断是否来自Baiduspider的抓取，Baiduspider的hostname以*.baidu.com 或*.baidu.jp 的格式命名，非 *.baidu.com 或 *.baidu.jp 即为冒充。

3、在mac os平台下，您可以使用dig 命令反解ip来判断是否来自Baiduspider的抓取。打开命令处理器输入dig xxx.xxx.xxx.xxx（IP地址）就能解析ip，来判断是否来自Baiduspider的抓取，Baiduspider的hostname以 *.baidu.com 或*.baidu.jp 的格式命名，非 *.baidu.com 或 *.baidu.jp 即为冒充。

转自：http://zhanzhang.baidu.com/wiki/251

转载请注明：爱开源 » 如何正确识别Baiduspider

如何正确识别Baiduspider

与本文相关的文章

您必须登录才能发表评论！

与本文相关的文章

您必须 登录 才能发表评论！

您必须登录才能发表评论！