您的位置：首页 > 新闻资讯 > 正文

Python爬虫常用的小技巧-设置代理IP

发布时间：2019-08-22 17:08:36 来源：互联网

　　Python爬虫常用的小技巧-设置代理IP?在学习Python爬虫的时候，经常会遇见所要爬取的网站采取了反爬取技术导致爬取失败。高强度、高效率地爬取网页信息常常会给网站服务器带来巨大压力，所以同一个IP反复爬取同一个网页，就很可能被封，这里讲述一个爬虫技巧，设置代理IP

　　这里介绍一下免费获取代理IP的方法，这个方法的优点就是免费，但是缺点就是爬取后存在很多不能用的

　　IP地址取自国内髙匿代理IP网站，黑洞代理，我们爬取首页IP地址就足够一般使用，或者你也可以爬取第一页，第二页…的

　　配置环境

　　安装requests库

　　安装bs4库

　　安装lxml库

　　具体代码

　　话不多说直接上代码吧

　　函数get_ip_list(url, headers)传入url和headers，最后返回一个IP列表，列表的元素类似122.114.31.177:808格式，这个列表包括国内髙匿代理IP网站首页所有IP地址和端口

　　函数get_random_ip(ip_list)传入第一个函数得到的列表，返回一个随机的proxies，这个proxies可以传入到requests的get方法中，这样就可以做到每次运行都使用不同的IP访问被爬取的网站，有效地避免了真实IP被封的风险

　　proxies的格式是一个字典：{‘http’: ‘http://122.114.31.177:808‘}，可以将下面的执行也封装为方法

　　对于抓取IP这个，犀牛代理服务器做了反爬处理，如果你频繁去抓取的话，服务器会主动返回503错误，提示block，所以在请求的时候可以先一次请求完保存一个文件，来读取这个文件，或者爬取一个ip使用几分钟后，再去爬取一次，相当于加一个定时功能

　　代理IP的使用

　　运行上面的代码会得到一个随机的proxies，把它直接传入requests的get方法中即可

　　res = requests.get(url, headers=headers, proxies=proxies)

　　这里想提醒的是，免费的代理IP稳定性还需要商榷，建议如何是大量的进行信息爬取的话还是购买一些代理IP比较好

热门文章

1、动态IP和PPPoE哪个稳定？上网选择哪种模式好？

2、怎么低成本获取大量IP？建立IP池

3、动VS静：动态ip和静态ip的区别是什么？

4、socks5代理设置：Socks5动态ip怎么使用？

5、什么是动态IP地址？动态ip软件有什么用?

6、使用动态ip有什么好处？

7、什么是动态IP地址？黑洞代理来告诉你！

8、无法获取动态IP，怎么解决上不了网问题

随机推荐

1.如何用Python爬取代理IP并验证有效性？

2.动态ip池如何搭建？三步便能搭建好动态ip池

3.最快找出可用代理ip方法

4.爬虫抓取数据为什么要用代理IP

5.快速掌握HTTP协议的方法

在线咨询

qq：800819103

在线客服，实时响应

qq群

在线客服，实时响应

客服电话

13318873961

大客户经理

800819360

13318873961

大客户经理微信

微信公众号

回到顶部

友情链接：

黑洞代理的业务范围包含代理ip、ip地址代理、ip修改器、ip代理软件、HTTP代理、API提取等等，黑洞代理软件不受任何网络限制，为广大用户解决网络ip被封禁等问题，指定进程代理上网的ip代理软件。