您的位置：首页 > 新闻资讯 > 正文

为何大量网站不能被python爬虫抓取

发布时间：2019-06-28 16:42:53 来源：互联网

　　为何大量网站不能被python爬虫抓取?很多从事python爬虫的网友，在采集网站信息时常遇见一些数据显示在浏览器上却无法抓取的情况。这可能是因为对方有意不让爬虫抓取信息，当你的IP地址被网站封杀，就会导致无法继续访问。下面说几个十分简单的方法，可以让你的python爬虫看起来更像人类访问用户。

　　1、构造合理的HTTP请求头，请求头可以通过 requests 模块进行自定义。

　　2、优化cookie，在采集一些网站时，cookie是不可或缺的，建议你在采集目标网站前，检查这些网站生成的cookie，然后筛选出哪个cookie是爬虫需要处理的。

　　3、正常的时间访问路径，很多有防护措施的网站可能会阻止你快速地提交表单，多快是快？用一个比普通人快很多的速度操作很可能会导致自己被网站封杀。建议尽量为每个页面访问增加一点儿间隔时间。

　　4、注意隐含输入字段值，用隐含字段阻止python爬虫抓取信息的方式主要有两种，一是表单页面上的一个字段可以用服务器生成的随机变量表示；另一个是服务器的“蜜罐”圈套。因此检查表单所在的页面十分必要。

　　5、使用代理IP，在网络中IP地址相当于你的上网身份证，人手一份。当网站识别python爬虫与人类访问的差异时，通常会采取封杀IP地址这种方法，阻止你抓取信息。这时候就需要使用代理IP。黑洞代理，是一家可提供大量优质HTTP代理IP资源的IP供应商，IP均属高匿名代理IP，是由无数个人终端IP汇聚而成。黑洞代理可以伪装python爬虫本地IP地址，达到突破网站防爬限制的目的。