首页 诗词 字典 板报 句子 名言 友答 励志 学校 网站地图
当前位置: 首页 > 教程频道 > 网站开发 > Web前端 >

web性能优化(3)反爬虫策略

2012-10-28 
web性能优化(三)反爬虫策略?? [文章作者:狂奔的鹿(陆松林) 本文版本:v1.0? 转载请注明原文链接:http://dyn

web性能优化(三)反爬虫策略

?? [文章作者:狂奔的鹿(陆松林) 本文版本:v1.0? 转载请注明原文链接:http://dynamiclu.iteye.com/]

?

?? 反爬虫策略,表面上看似乎跟WEB系统优化没有关系,经过分析,发现该策略是可以归到WEB性能优化的系列之中。

?? 通过分析apache日志发现,某系统40%的带宽和服务器资源都消耗在爬虫上,如果除去10%-15%搜索引擎的爬虫,做好反爬虫策略,能节省20%-25%的资源,其实是变向优化了web系统。

一、爬虫请求与正常用户请求的区别

???? 爬虫请求是类似httpClient的机制或curl,wget的命令,用户请求一般走浏览器。

??? 区别:爬虫请求一般不会执行页面里的异步JavaScript操作,而用户请求则执行Jquery提供的异步JavaScript操作,具体如下:

??

?

?

?

?文件/home/songlin.lu/shell/log/noforbid_ips.log为白名单列表

?

tcpReleaseCmd.sh参考代码如下:

?

?

?

?

此策略相当于给我们的系统设定了门槛,类似公路交通系统内,某马路设定限高4米栏杆,高于4米的车不能在此通行。该策略能预防恶意的或新手写的请求频率不规则的爬虫。

?

(二)WEB服务器容器层面

a.User-Agent判断 ???? b. connlimit模块判断

???? 每个爬虫会声明自己的User-Agent信息,我们可以通过判断爬虫的User-Agent信息来识别,具体查看相关文档

??? Apache作connlimit需要mod_limitipconn来实现,一般需要手动编译。

  编辑httpd.conf文件,添加如下配置

?

?

?

[文章作者:狂奔的鹿(陆松林) 本文版本:v1.0? 转载请注明原文链接:http://dynamiclu.iteye.com/]

?

?

?

?

?

?

?

?

热点排行