您的位置：首页 > 新闻资讯 > 正文

七大方法解决http爬虫被封代理ip的问题

发布时间：2019-04-22 17:39:39 来源：互联网

　　七大方法解决http爬虫被封代理ip的问题！之前有个邻居孩子要上学，因为没有考上重点，成绩又不算太低，所以打算上一个好一点的私立高中，家长不知道哪一所学校的口碑和往年的成绩会好一些所以，就请我一个做数据的朋友利用数据分析一下，故此也学到了一些经验

　　方法1.

　　不管你要采集什么样的网站，http代理ip一定是必须品，但是要注意的是一定要使用国内代理服务器ip，可以直接使用ip在线代理地址上面直接购买。但是一定要靠谱。这样做的优势是：

　　第一，程序逻辑变化小，只需要代理功能。

　　第二，根据对方网站的不同屏蔽规则，你可以购买不同的ip代理

　　第三，假设你目前使用打代理IP被对方的网站屏蔽了，你可以换ip,程序逻辑不需要变化。

　　方法2.

　　有一小部分的网站的防范措施是比较薄弱的，可以伪装一下从代理IP服务商那里买的IP，修改X-Forwarded-for，即可绕过。

　　大部分网站么，如果要频繁抓取，一般还是要多IP。我比较喜欢的解决方案是直接购买飞蚁动态转发的HTTP代理ip。

　　方法3.

　　ADSL + 脚本，监测是否被封，然后不断切换 ip

　　设置查询频率限制

　　正统的做法是调用该网站提供的服务接口。

　　方法4.

　　1 user agent 伪装和轮换

　　2 使用代理 ip 和轮换

　　3 cookies 的处理，有的网站对登陆用户政策宽松些

　　友情提示：考虑爬虫给人家网站带来的负担，be a responsible crawler ??

　　方法5.

　　尽可能的模拟用户行为：

　　1、UserAgent经常换一换；

　　2、访问时间间隔设长一点，访问时间设置为随机数；

　　3、访问页面的顺序也可以随机着来

　　方法6.

　　网站封的依据一般是单位时间内特定IP的访问次数.

　　我是将采集的任务按目标站点的IP进行分组通过控制每个IP 在单位时间内发出任务的个数,来避免被封.当然,这个前题是你采集很多网站.如果只是采集一个网站,那么只能通过多外部IP的方式来实现了.

　　方法7.

　　1. 对爬虫抓取进行压力控制；

　　2. 可以考虑使用代理的方式访问目标站点。

　　总结：

　　-降低抓取动态ip地址的更换频率，时间设置长一些，访问时间采用随机数

　　-频繁切换UserAgent（模拟浏览器访问）

　　-多页面数据，随机访问然后抓取数据

　　-使用代理IP不间断更换

黑洞代理