最新消息:

标签:爬虫

web扫描爬虫优化
web

web扫描爬虫优化

admin 10年前 (2014-12-25) 2949浏览 0评论

0x01 需求背景 公司要弄自动化的扫描工具,目前市面上的工具都无法针对业务进行检测,所以只能自己开发。辣么,就有个问题,爬虫需要自己去写。。。 之前自己也写过相关的爬虫,但是要么是半成品,要么就是垃圾代码…很多都无法直接引用,所以,在强大的KPI考...

如何正确识别Baiduspider
爬虫

如何正确识别Baiduspider

admin 11年前 (2014-06-26) 2745浏览 0评论

经常听到有人抱怨百度蜘蛛爬的太频繁导致服务器被跑挂了,大部分情况下那些不是真的百度蜘蛛,而是一些采集站点来爬内容,这里替百度觉得冤。辨别爬虫是否是百度的,不单单看主机头,毕竟浏览器头信息是可以伪造的,一般我们通过DNS反向解析能更好的判断当前IP是否...

apache禁止网络爬虫采集
apache

apache禁止网络爬虫采集

admin 11年前 (2014-02-20) 2830浏览 0评论

Apache中禁止网络爬虫,之前设置了很多次的,但总是不起作用,原来是是写错了,不能写到Dirctory中,要写到Location中 <Location /> SetEnvIfNoCase User-Agent "spider&...

减轻Bing爬虫MSNBot给网站造成的压力
Bind

减轻Bing爬虫MSNBot给网站造成的压力

admin 11年前 (2014-02-07) 3847浏览 0评论

最近某客户的VPS经常因为负载过高而无法访问。用ras-shell给VPS硬重启后过几十分钟就又因为负载高而无法访问了。 用netstat命令可以看到某些IP频繁访问网站的所有网页,给网站造成的压力很大。用host命令查看这些IP,可以看到这些IP都...