您的位置：首页 > 新闻资讯 > 正文

网站有哪些反爬虫？常见六种反爬虫突破方法

发布时间：2018-12-18 16:02:59 来源：互联网

通常学习爬虫的时候，都会知道反爬虫，想要顺利的采集到信息完成任务，必须要先突破网站的反爬虫机制，今天就跟黑洞代理来了解一下网站有哪些反爬虫。这些反爬虫可以采用什么方法进行突破呢？

1.cookie

防：Cookie是一把双刃剑，有它不行，没它更不行。网站会通过cookie跟踪你的访问过程，如果发现你有爬虫行为会立刻中断你的访问，比如你特别快的填写表单，或者短时间内浏览大量页面。

攻：正确地处理cookie，又可以避免很多采集问题，建议在采集网站过程中，检查一下这些网站生成的cookie，然后想想哪一个是爬虫需要处理的。

2.Headers

防：很多网站都会对Headers的User-Agent进行检测，还有一部分网站会对Referer进行检测。

破：直接在爬虫中添加Headers，将浏览器的User-Agent复制到爬虫的Headers中；或者将Referer值修改为目标网站域名。

3.验证码验证

防：当访问过快或者有异常时，需要输入验证码才能继续访问的网站。

攻：简单的数字验证码可以使用OCR识别，不过现在有的验证码已经没那么简单了，所以如果确实复杂可以接入平台自动打码。

4.用户行为

防：一部分网站是通过检测用户行为，例如同一IP短时间内多次访问同一页面，或者同一账户短时间内多次进行相同操作。

攻：如果采集数量不多，也不着急，可以降低采集速度，即每次请求后随机间隔几秒再进行下一次请求。

如果需要采集大量数据，可以使用代理IP的海量IP资源来破解，比如使用黑洞代理。有了大量代理ip后可以每请求几次更换一个ip，循环使用，很容易的绕过。

5.蜜罐技术

防：在反爬虫的机制中，有一种蜜罐技术。网页上会故意留下一些人类看不到或者绝对不会点击的链接。由于爬虫会从源代码中获取内容，所以爬虫可能会访问这样的链接。这个时候，只要网站发现了有IP访问这个链接，立刻永久封禁该IP + User-Agent + Mac地址等等可以用于识别访问者身份的所有信息。这个时候，访问者即便是把IP换了，也没有办法访问这个网站了。给爬虫造成了非常大的访问障碍。

攻：定向爬虫的爬行轨迹是由我们来决定的，爬虫会访问哪些网址我们都是知道的。因此即使网站有蜜罐，定向爬虫也不一定会中招。

6.网页加密

防：有时候我们在网上看到一个好的网页特效或者图片时，想要查看网页的源码，但是却发现网页不但右键给锁定了，而且有时就直接禁止查看源代码。即使能查看源代码，却只看到了一堆乱码。这些网页正是使用了加密的方法将源码给隐藏起来了。

攻：对于内容进行了网页脚本加密的情况，可以通过模拟加密算法还原运行脚本，或是编写插件进行扩展等。

对于“网站有哪些反爬虫”，小编介绍了比较常见的六种反爬虫，并且详细的介绍突破的方法。其实反爬虫并不止以上这些，随着技术的进步，网站也会采取更多的方法来限制爬虫的行动，爬虫也要随之进步，否则也采集不了数据。