qq:800819103
在线客服,实时响应qq群
在线客服,实时响应客服电话
13318873961爬虫不是真正的用户,其行为模式有别于真实的用户,因此平台常常通过检测用户行为模式来辨别当前访问的用户究竟是人类还是爬虫机器。这平台到底是从哪些方面进行检测的呢?下面小编带大家一起去瞧一瞧。
1.访问内容
爬虫一般不抓取css、js等资源文件。如果是垂直爬虫,往往访问数据具有明显的目的性,如果返现某些IP访问某些数据超过正常频次,且这些这些IP并没有访问其他任何资源,则可以断定是爬虫。
2.访问频率
频率限制,每分钟超过N次访问的IP封掉,如3小时访问量超过50次时,弹出验证框,验证内容输入错误,则计入黑名单。
搞个计数器,把特定ip一天内的总次数和每秒内的频率记录下来,达到实时拦截的目的(这个类似淘宝的TMD,用分布式缓存计数,超出规则,要么直接拒绝,要么跳到输入验证码的页面)。
3.端口检查
用netstat检查80端口的连接:
sh netstat -nt | grep youhostip:80 | awk '{print $5}' | awk -F":" '{print $1}'| sort | uniq -c | sort -r -n
这行shell可以按照80端口连接数量对来源IP进行排序,这样可以直观的判断出来网页爬虫。一般来说爬虫的并发连接非常高。 直接封锁爬虫所在的C网段地址。这是因为一般爬虫都是运行在托管机房里面,可能在一个C段里面的多台服务器上面都有爬虫,而这个C段不可能是用户宽带上网,封锁C段可以很大程度上解决问题。
4.js埋点
把apache或nginx日志分析和js埋点对比来分析,爬虫请求在无法模拟浏览器请求的时候,无法执行js代码,页面没有埋点,但是这个请求,会在web日志中留下,js有小问题,就是用户请求的时候,如果浏览器有缓存,实际上没有请求服务器端,但是js确埋了一个点,对比分析,效果会好很多。
5.访问间隔规律
爬虫爬取网页的频率都是比较固定的,不像人去访问网页,中间的间隔时间比较无规则,所以我们可以给每个IP地址建立一个时间窗口,记录IP地址最近12次访问时间,每记录一次就滑动一次窗口,比较最近访问时间和当前时间。如果间隔时间很长判断不是爬虫,清除时间窗口,如果间隔不长,就回溯计算指定时间段的访问频率,如果访问频率超过阀值,就转向验证码页面让用户填写验证码。
综上可知,网络爬虫毕竟不是人类,也是会留有痕迹的,因此要想获取到信息,爬虫需要先进行一番伪装,把各方面的数据伪装好,至于不能伪装的数据--IP地址,可以使用黑洞代理切换IP地址,这样便能顺利的采集到数据了。
相关文章内容简介
1 数据采集:要小心爬虫行为检测
爬虫不是真正的用户,其行为模式有别于真实的用户,因此平台常常通过检测用户行为模式来辨别当前访问的用户究竟是人类还是爬虫机器。这平台到底是从哪些方面进行检测的呢?下面小编带大家一起去瞧一瞧。1.访问内容爬虫一般不抓取css、js等资源文件。如果是垂直爬虫,往往访问数据具有明显的目的性,如果返现某些IP访问某些数据超过正常频次,且... [阅读全文]
最新标签
推荐阅读
04
2019-05
如何购买代理IP?
如何让爬虫畅通无阻地高效稳定地夜以继日地永不停息地工作,是无数爬虫工作者梦寐以求的愿望。事实再次证明,世上无难事只怕有心人,只要拥有一个独享IP池,就可以让爬虫再也不怕封IP
11
2019-05
ip代理软件怎么下载?
ip代理软件下载,代理黑洞代理无需安装,直接打开即可使用,无系统残留,是真正的绿色安全软件,软件采用最新编程技术,自动获取最新可用的代理(实时),是你IP代理的首要选择!
25
2019-06
Python爬虫采集遇到403问题怎么办?
随着移动端设备的普及和发展,各种数据集中在互联网上,面对如此大量的数据信息,人工采集方法肯定不可取,这时候Python爬虫开始展露头角,在采集信息时我们经常会遇到一些问题:一些数
09
2019-01
如何利用Python语言轻松爬取数据?
对于网络小白而言,网络爬虫是一件特别复杂、技术含量很高的事情。例如有人觉得学爬虫必须要会Python,要系统学习Python的基础知识,可是学会后发现仍然爬不了数据;有人则觉得先要了解网
热门文章