
qq:800819103
在线客服,实时响应
qq群
在线客服,实时响应
客服电话
13318873961如何爬取代理ip?在我们使用网络写脚本到指定网站抓取数据的时候,总是避免不了会被网站屏蔽IP,所以这个时候就需要一些代理IP,打开网页随便就能找到很多提供免费代理IP的网站做IP抓取,这里介绍抓取的是国内匿名代理IP。
第一步:HTML页面获取
通过观察我们可以发现,我们需要的信息的页面url有这样的一个规律:www.xxxxxx.com/nn/+页码。可是如果直接通过get方法访问的话会发现出现500错误,原因是在这个规律下的url虽然是get方法获得数据,但都有cookie认证。那么问题来了——怎么获得需要的cookie呢?我们第一次通过浏览器访问该网站的主页是能打开的,其网站的各个子模块都可以打开。一定在某个时间段内我们的浏览器获得了该网站设置的cookie。清楚浏览器cookie,重新打开该网站首页,通过开发者工具可以发现我们打开首页的时候没有上传cookie,而是网站会下发cookie。接着打开我们上面找到的规律url页面,比对一下,发现我们上传的cookie就是在首页下发的cookie。这样就有办法了——编写脚本的时候,先访问一下首页获得cookie,再将获得的cookie添加到后续的请求中。
第二步:分析html结构,使用BS4进行信息提取。
以上简单介绍了如何爬取代理IP,具体的代码还需要自己搜索一下。
相关文章内容简介
1 如何爬取代理ip?
如何爬取代理ip?在我们使用网络写脚本到指定网站抓取数据的时候,总是避免不了会被网站屏蔽IP,所以这个时候就需要一些代理IP,打开网页随便就能找到很多提供免费代理IP的网站做IP抓取,这里介绍抓取的是国内匿名代理IP。 第一步:HTML页面获取 通过观察我们可以发现,我们需要的信息的页面url有这样的一个规律:www.xxxxxx.com/nn/+页码。可是... [阅读全文]
最新标签
推荐阅读
11
2019-04
代理IP在网络游戏代练工作室中有什么作用?
代理IP在网络游戏代练工作室中有什么作用?开一家网络游戏代练工作室需要了解哪些知识。
13
2018-10
有什么可以更换ip的软件?那个代理ip软件好用?
现在很多网络活动,比如网络推广之类的都会对IP做出限制,例如1个IP一天之内只能注册一个账号,或者同一个IP 只能投一票,这样对IP量的需求就变得大了。
28
2019-04
爬虫第一步是做什么?准备好代理IP池!
代理实际上就是代理服务器, 代理服务器的工作机制很象我们生活中常常提及的代理商,假设你的机器为A机,你想获得的数据由B机提供,代理服务器为C机,那么具体的连接过程是这样的。 首
16
2019-05
代理IP让人们生活更便利
如今的信息社会,每天给人们提供大量的信息,但大家对于信息的需求仍不感到满足。为了应对这一现象,黑洞代理IP便应运而生。这个名词对于一些刚进入网络领域的人们来说,可能还比较陌
热门文章