
qq:800819103
在线客服,实时响应
qq群
在线客服,实时响应
客服电话
13318873961如何使用代理IP来解决爬虫被封的问题?在大量爬取某个网站时,突然被该网站封了IP,再也爬不动了。研究其反爬虫策略时发现,当单个IP访问次数达到某个阈值时,将会限制当天访问。爬虫不能停,工作任务必须按时完成,怎么办呢?同事告知:使用代理IP来解决。
在同事的介绍下,买了黑洞代理IP的一手私密代理IP,接下来就是使用代理IP来继续爬虫工作了。通过python官方文档得知,可用urllib库的request方法中的ProxyHandler方法,build_opener方法,install_opener方法来使用代理IP。
官方文档很官方,有点难以理解,下面是部分关键文档,一起来看下:
class urllib.request.ProxyHandler(proxies=None)
Cause requests to go through a proxy. If proxies is given, it must be a dictionary mapping protocol names to URLs of proxies.(通过代理方法请求,如果给定一个代理,它必须是一个字典映射,key为协议,value为URLs或者代理ip。)
urllib.request.build_opener([handler, ...])
Return an OpenerDirector instance, which chains the handlers in the order given.(build_opener方法返回一个链接着给定顺序的handler的OpenerDirector实例。)
urllib.request.install_opener(opener)
Install an OpenerDirector instance as the default global opener.(install_opener方法安装OpenerDirector实例作为默认的全局opener。)
是不是云里雾里的,如果这样理顺下,就会发现其实很简单:
1、将代理IP及其协议载入ProxyHandler赋给一个opener_support变量;
2、将opener_support载入build_opener方法,创建opener;
3、安装opener。
具体代码如下:
from urllib import request
def ProxySpider(url, proxy_ip, header):
opener_support = request.ProxyHandler({'http': proxy_ip})
opener = request.build_opener(opener_support)
request.install_opener(opener)
req = request.Request(url, headers=header)
rsp = request.urlopen(req).read()
return rsp
有了代理IP,又学会了使用代理IP来做爬虫,这下可以不用担心被目标网站限制了,爬虫工作效率直线上线,按时完成任务不在话下。
相关文章内容简介
1 如何使用代理IP来解决爬虫被封的问题?
如何使用代理IP来解决爬虫被封的问题?在大量爬取某个网站时,突然被该网站封了IP,再也爬不动了。研究其反爬虫策略时发现,当单个IP访问次数达到某个阈值时,将会限制当天访问。爬虫不能停,工作任务必须按时完成,怎么办呢?同事告知:使用代理IP来解决。 在同事的介绍下,买了黑洞代理IP的一手私密代理IP,接下来就是使用代理IP来继续爬... [阅读全文]
最新标签
推荐阅读
07
2019-02
电脑、安卓如何设置修改IP地址?
处于局域网中的计算机不论是有线无线网络连接的,有时会出现无网络访问限权,也可能会碰到被网络管理员限制网络带宽、限制浏览等状况,这些操作一般都是针对ip地址实现的
24
2018-10
共享IP与独享IP的区别,使用哪种IP好
共享IP与独享IP的区别,使用哪种IP好?普通网络用户只要能上网,网速可以就行,但对于有些网络工作者而言,使用网络对IP还有要求,比如说做网络优化工作需要经常更换IP...
09
2019-07
租用国内代理ip要考虑几点?
我们知道互联网营销的业务中,经常会用到代理IP,最常见的有投票、抢购、注册等,其实发帖也是可以应用到的,例如在某论坛发帖,经常操作可能会被网站系统限定,提示限定发帖子,就是I
23
2019-04
什么是动态代理ip?跟普通代理ip有什么区别?
在区分什么是动态代理IP之前,首先我们要弄清楚,什么是代理IP?就是你在你的浏览器设置选项中(IE/火狐/chrome),手动输入你的代理ip地址。然后用浏览器去搜索,比如说访问百度,在百度
热门文章