web扫描爬虫优化
admin 10年前 (2014-12-25) 2933浏览 0评论
0x01 需求背景 公司要弄自动化的扫描工具,目前市面上的工具都无法针对业务进行检测,所以只能自己开发。辣么,就有个问题,爬虫需要自己去写。。。 之前自己也写过相关的爬虫,但是要么是半成品,要么就是垃圾代码…很多都无法直接引用,所以,在强大的KPI考...
admin 10年前 (2014-12-25) 2933浏览 0评论
0x01 需求背景 公司要弄自动化的扫描工具,目前市面上的工具都无法针对业务进行检测,所以只能自己开发。辣么,就有个问题,爬虫需要自己去写。。。 之前自己也写过相关的爬虫,但是要么是半成品,要么就是垃圾代码…很多都无法直接引用,所以,在强大的KPI考...
admin 11年前 (2014-06-26) 2727浏览 0评论
经常听到有人抱怨百度蜘蛛爬的太频繁导致服务器被跑挂了,大部分情况下那些不是真的百度蜘蛛,而是一些采集站点来爬内容,这里替百度觉得冤。辨别爬虫是否是百度的,不单单看主机头,毕竟浏览器头信息是可以伪造的,一般我们通过DNS反向解析能更好的判断当前IP是否...
admin 11年前 (2014-02-20) 2813浏览 0评论
Apache中禁止网络爬虫,之前设置了很多次的,但总是不起作用,原来是是写错了,不能写到Dirctory中,要写到Location中 <Location /> SetEnvIfNoCase User-Agent "spider&...
admin 11年前 (2014-02-07) 3833浏览 0评论
最近某客户的VPS经常因为负载过高而无法访问。用ras-shell给VPS硬重启后过几十分钟就又因为负载高而无法访问了。 用netstat命令可以看到某些IP频繁访问网站的所有网页,给网站造成的压力很大。用host命令查看这些IP,可以看到这些IP都...