您的位置：首页 > 新闻资讯 > 正文

数据采集：要小心爬虫行为检测

发布时间：2019-03-07 16:54:45 来源：互联网

爬虫不是真正的用户，其行为模式有别于真实的用户，因此平台常常通过检测用户行为模式来辨别当前访问的用户究竟是人类还是爬虫机器。这平台到底是从哪些方面进行检测的呢？下面小编带大家一起去瞧一瞧。

1.访问内容

爬虫一般不抓取css、js等资源文件。如果是垂直爬虫，往往访问数据具有明显的目的性，如果返现某些IP访问某些数据超过正常频次，且这些这些IP并没有访问其他任何资源，则可以断定是爬虫。

2.访问频率

频率限制，每分钟超过N次访问的IP封掉，如3小时访问量超过50次时，弹出验证框，验证内容输入错误，则计入黑名单。

搞个计数器，把特定ip一天内的总次数和每秒内的频率记录下来，达到实时拦截的目的（这个类似淘宝的TMD，用分布式缓存计数，超出规则，要么直接拒绝，要么跳到输入验证码的页面）。

3.端口检查

用netstat检查80端口的连接:

sh netstat -nt | grep youhostip:80 | awk '{print $5}' | awk -F":" '{print $1}'| sort | uniq -c | sort -r -n

这行shell可以按照80端口连接数量对来源IP进行排序，这样可以直观的判断出来网页爬虫。一般来说爬虫的并发连接非常高。直接封锁爬虫所在的C网段地址。这是因为一般爬虫都是运行在托管机房里面，可能在一个C段里面的多台服务器上面都有爬虫，而这个C段不可能是用户宽带上网，封锁C段可以很大程度上解决问题。

4.js埋点

把apache或nginx日志分析和js埋点对比来分析，爬虫请求在无法模拟浏览器请求的时候，无法执行js代码，页面没有埋点，但是这个请求，会在web日志中留下，js有小问题，就是用户请求的时候，如果浏览器有缓存，实际上没有请求服务器端，但是js确埋了一个点，对比分析，效果会好很多。

5.访问间隔规律

爬虫爬取网页的频率都是比较固定的，不像人去访问网页，中间的间隔时间比较无规则，所以我们可以给每个IP地址建立一个时间窗口，记录IP地址最近12次访问时间，每记录一次就滑动一次窗口，比较最近访问时间和当前时间。如果间隔时间很长判断不是爬虫，清除时间窗口，如果间隔不长，就回溯计算指定时间段的访问频率，如果访问频率超过阀值，就转向验证码页面让用户填写验证码。

综上可知，网络爬虫毕竟不是人类，也是会留有痕迹的，因此要想获取到信息，爬虫需要先进行一番伪装，把各方面的数据伪装好，至于不能伪装的数据--IP地址，可以使用黑洞代理切换IP地址，这样便能顺利的采集到数据了。