您的位置：首页 > 新闻资讯 > 正文

如何利用动态IP代理迎合爬虫系统？

发布时间：2019-09-05 17:03:39 来源：互联网

　　如何利用动态IP代理迎合爬虫系统。为了避免恶意攻击，企业在做网站系统，在写爬虫时，某些网站会有一些防爬措施，比如限制单个ip的访问频率。而突破ip限制的方式，大概有如下几种:

如何利用动态IP代理迎合爬虫系统

　　和被爬的网站合作，将自己的ip加入白名单;

　　买多台具有公网ip的服务器，每台都布一个爬虫脚本,相当于每个爬虫都有自己的独立ip;

　　买一些便宜的ip资源，用这些ip做代理(可以是配置很低的且每台机器具有多个公网ip的服务器，只负责网络代理，不跑业务)。

　　方式1，既然选择爬人家的数据，初期阶段应该没有合作的意向或没有合作的通道。

　　方式2，多台服务器成本高，同一爬虫部署多处，维护成本也高(配置、部署、升级、爬虫间相互协调等)。

　　方式3，成本低，脚本无需部署多处。

　　本文将针对方式3，从原理到实现，一步一步地说明。

　　http代理原理

　　当访问某个站点时，网站服务器可以获取到访问者的ip. 服务器可以根据来自该ip的请求情况，做一些限流操作。而代理，是在访问者和站点之间，加一个中间人。访问者向中间人发请求，中间人将该请求转发给站点，最后中间人把站点的响应返回给访问者。在这个过程中站点只能看到代理(中间人)的ip。

　　无代理的情况: 访问者 <==> 站点 (站点看到的是访问者的ip)

　　有代理的情况: 访问者 <==> 代理 <==> 站点 (站点看到的是代理的ip)

　　有动态代理的情况: 访问者 <==> [ 代理1，代理2，代理3，... ] <==> 站点 ( 站点看到的是多个代理的随机ip )

　　使用 curl 做实验

　　访问 http://httpbin.org/ip 可以得到自己的ip:

　　curl http://httpbin.org/ip{ "origin": "58.243.254.31"}

　　可以看到我的外网ip是58.243.254.31 。curl 支持--proxy参数来指定代理:

　　curl --proxy http://localhost:1087 http://httpbin.org/ip{ "origin": "217.197.160.199"}

　　使用代理后，我的ip(对于被访问的站点来说)，变成了217.197.160.199。通过以上实验，想必你对代理也有了一定的感知。

　　用nodejs写一个简单的爬虫

　　这个爬虫很简单，就是请求http://httpbin.org/ip，将返回值打印到控制台。

　　# 创建一个名为node-crawler的文件夹mkdir node-crawler# 进入这个文件夹cd node-crawler# 创建一个默认的package.jsonnpm init -y# 安装request依赖npm i -S request# 新建一个名为index.js的文件touch index.js

　　index.js的内容如下:

　　const request = require("request");request({url:"http://httpbin.org/ip"},(err,res,body)=>{ // 暂时忽略错误信息，直接打印body console.log(body);});

　　在控制台执行node index.js, 会得到如下输出:

　　{ "origin": "58.243.254.31, 58.243.254.31"}

　　和curl类似，我们可以给request方法配置代理参数:

　　const request = require("request");request({ url:"http://httpbin.org/ip",proxy:"http://localhost:1087"},(err,res,body)=>{// 暂时忽略错误信息，直接打印body console.log(body);});

　　再次执行node index.js, 将得到如下输出:

　　{ "origin": "217.197.160.199, 217.197.160.199"}

　　至此，单个http代理已经完成了。接下来我们讨论如何动态地在多个http代理间来回切换，以此来弱化被爬的站点对访问者ip的限制。

　　第一种方案

　　从外部将ip代理参数传给爬虫脚本，爬虫运行完成后自动退出，再取另一个ip代理参数，重新跑爬虫脚本，以此形式周而复始。

　　可以写一个这样的shell脚本:

　　#!/usr/bin/env bash# 假设有2个http代理可用proxies=( 'http://a.b.c.d:8443' 'http://h.i.j.k:1087');# 周而复始地while(true); do # 每次拿出一个代理 for p in "${proxies[@]}"; do echo 使用代理 $p # 用该代理跑爬虫 PROXY=$p node index.js # 休眠一定时间 sleep 5 donedone

　　其中 PROXY=$p 是定义一个环境变量PROXY, 其值是2个http代理中的任意一个。我们修改一下index.js, 让其使用PROXY环境参数作为其代理:

　　const request = require("request");const proxy = process.env.PROXY;request({ url:"http://httpbin.org/ip", proxy },(err,res,body)=>{ // 暂时忽略错误信息，直接打印body console.log(body);});

　　该方案使用bash脚本配合js爬虫脚本一起使用，对于不懂bash的人来说，维护起来有一定的心理负担。接下来，我们使用纯js语言实现。

　　第二种方案

　　将方案一中的bash转换为js，index.js内容调整为以下内容:

　　const request = require("request");const proxies = ["http://a.b.c.d:8443","http://h.i.j.k:1087"];main();// index 是循环执行的次数function main( index=0 ){ request({ url:"http://httpbin.org/ip", // 来回的取proxy proxy: proxies[index % proxies.length] }, (err, res, body) => { // 暂时忽略错误信息，直接打印body console.log(body); // 5秒后取下一个proxy，重新跑爬虫 setTimeout( main, 5000, index+1 ); });}

　　综上，我们实现了从不使用代理到使用单个代理，再到使用多个代理的过程，使得我们的爬虫能尽可能少地受到服务器限流的影响。我们也看以当一个需求的解决方案有多种时，如何从经济成本、开发成本、维护成本上做取舍。

相关文章内容简介

动态IP和PPPoE哪个稳定？上网选择哪种模式好？

怎么低成本获取大量IP？建立IP池

动VS静：动态ip和静态ip的区别是什么？

socks5代理设置：Socks5动态ip怎么使用？

相关文章内容简介

1 如何利用动态IP代理迎合爬虫系统？

　　如何利用动态IP代理迎合爬虫系统。为了避免恶意攻击，企业在做网站系统，在写爬虫时，某些网站会有一些防爬措施，比如限制单个ip的访问频率。而突破ip限制的方式，大概有如下几种:　　和被爬的网站合作，将自己的ip加入白名单;　　买多台具有公网ip的服务器，每台都布一个爬虫脚本,相当于每个爬虫都有自己的独立ip;　　买一些便宜的ip资源，用�... [阅读全文]

热门标签

动态ip IP地址 ip修改器动态ip代理 ip加速器改ip软件换ip 换ip软件

最新标签

黑洞头条

推荐阅读

18

2019-04

动态ip是如何解决异地计算机之间的通信

有些企业或个人用户由于种种需要，想让多台处于不同地点的计算机之间互相访问。

25

2019-07

选择代理IP的三要素

现在在网络中随便搜索就可以找到很多代理IP软件，因为软件的数量剧增，在选择的时候就尤为重要，如果选择了不好的代理，不仅不会给我们的工作带来帮助，还会很麻烦。下面就为大家介绍

30

2018-11

怎么提升爬虫的爬取效率？实现分布式爬虫

大数据时代，企业需要采集大量的数据，并从中挖掘有价值的信息。大量数据的采集，普通的爬取方式满足不了需求，那么怎么提升爬虫的爬取效率？这就需要用到分布式爬虫。

31

2019-01

爬虫遇到这些状态码是什么意思

我们在使用爬虫的过程中会遇到许多问题，并且返回一些状态码给我们，那么这些状态码代表什么意思呢？若是能正确的理解这些状态码的意思，就能对症下药，解决问题，并成功的获取到数据

热门文章

1、动态IP和PPPoE哪个稳定？上网选择哪种模式好？

2、怎么低成本获取大量IP？建立IP池

3、动VS静：动态ip和静态ip的区别是什么？

4、socks5代理设置：Socks5动态ip怎么使用？

5、使用动态ip有什么好处？

6、什么是动态IP地址？动态ip软件有什么用?

7、什么是动态IP地址？黑洞代理来告诉你！

8、无法获取动态IP，怎么解决上不了网问题

随机推荐

1.多账号最好用国内代理ip换ip

2.常见两种搭建代理IP池的方法

3.国内可用的http代理服务器

4.速度快的代理IP有哪些？

5.使用动态ip软件前，这三个概念你要弄懂

在线咨询

qq：800819103

在线客服，实时响应

qq群

在线客服，实时响应

客服电话

13318873961

大客户经理

大客户经理

13318873961

大客户经理微信

微信公众号

微信公众号

友情链接：

黑洞代理的业务范围包含代理ip、ip地址代理、ip修改器、ip代理软件、HTTP代理、API提取等等，黑洞代理软件不受任何网络限制，为广大用户解决网络ip被封禁等问题，指定进程代理上网的ip代理软件。

Powered by wanchen tech. © | 粤ICP备18047396号-6 广州万宸软件科技有限公司代理ip软件版权版权所有