您的位置：首页 > 新闻资讯 > 正文

怎么提升爬虫的爬取效率？实现分布式爬虫

发布时间：2018-11-30 14:48:03 来源：黑洞代理

大数据时代，企业需要采集大量的数据，并从中挖掘有价值的信息。大量数据的采集，普通的爬取方式满足不了需求，那么怎么提升爬虫的爬取效率？这就需要用到分布式爬虫，今天一起跟黑洞代理去了解一下python分布式爬虫框架，怎么提升爬虫的爬取效率。

Scrapy单机爬虫中有一个本地爬取队列Queue，这个队列是利用deque模块实现的。如果新的Request生成就会放到队列里面，随后Request被Scheduler调度。之后，Request交给Downloader执行爬取，简单的调度架构如下图所示。

如果两个Scheduler同时从队列里面取Request，每个Scheduler都有其对应的Downloader，那么在带宽足够、正常爬取且不考虑队列存取压力的情况下，爬取效率会有什么变化？没错，爬取效率会翻倍。

这样，Scheduler可以扩展多个，Downloader也可以扩展多个。而爬取队列Queue必须始终为一个，也就是所谓的共享爬取队列。这样才能保证Scheduer从队列里调度某个Request之后，其他Scheduler不会重复调度此Request，就可以做到多个Schduler同步爬取。这就是分布式爬虫的基本雏形，简单调度架构如下图所示。

我们需要做的就是在多台主机上同时运行爬虫任务协同爬取，而协同爬取的前提就是共享爬取队列。这样各台主机就不需要各自维护爬取队列，而是从共享爬取队列存取Request。但是各台主机还是有各自的Scheduler和Downloader，所以调度和下载功能分别完成。如果不考虑队列存取性能消耗，爬取效率还是会成倍提高。

由上可知，怎么提升爬虫的爬取效率的问题是可以解决的，通过实现python分布式爬虫可以提升爬取效率。