scrapy 2.3 增加并发性

Concurrency是并行处理的请求数。存在全局限制 (CONCURRENT_REQUESTS ）以及每个域都可以设置的附加限制 (CONCURRENT_REQUESTS_PER_DOMAIN ）或每IP (CONCURRENT_REQUESTS_PER_IP ）

注解

调度程序优先级队列 recommended for broad crawls 不支持 CONCURRENT_REQUESTS_PER_IP .

scrapy中的默认全局并发限制不适用于并行地对许多不同的域进行爬网，因此您需要增加它。增加多少将取决于您的爬虫有多少CPU和内存可用。

一个好的起点是 100 ：：

CONCURRENT_REQUESTS = 100

但最好的方法是做一些试验，并确定零碎的进程在什么样的并发上受到CPU限制。为了获得最佳性能，您应该选择CPU使用率为80-90%的并发性。

增加并发性也会增加内存使用量。如果担心内存使用问题，您可能需要相应地降低全局并发限制。

w3cschool 编程狮，随时随地学编程

scrapy 2.3 增加并发性

scrapy 2.3 安装指南

scrapy 2.3 教程

scrapy 2.3 命令行工具

scrapy 2.3 蜘蛛

scrapy 2.3 选择器

scrapy 2.3 使用选择器

scrapy 2.3 使用xpaths

scrapy 2.3 使用exslt扩展

scrapy 2.3 内置选择器引

scrapy 2.3 选择器实例

scrapy 2.3 项目

scrapy 2.3 项目类型

scrapy 2.3 使用项目对象

scrapy 2.3 使用项目对象

scrapy 2.3 项目加载器

scrapy 2.3 shell

scrapy 2.3 shell使用外壳

scrapy 2.3 项目管道

scrapy 2.3 项目管道示例

scrapy 2.3 Feed导出

scrapy 2.3 请求和响应

无标题文章

scrapy 2.3 请求子类

scrapy 2.3 链接提取器

scrapy 2.3 设置

scrapy 2.3 登录

scrapy 2.3 日志记录配置

scrapy 2.3 统计数据集合

scrapy 2.3 发送电子邮件

scrapy 2.3 远程登录控制台

scrapy 2.3 常见问题

scrapy 2.3 调试spiders

scrapy 2.3 蜘蛛合约

scrapy 2.3 常用做法

scrapy 2.3 宽爬行

scrapy 2.3 使用浏览器的开发人员工具进行抓取

scrapy 2.3 选择动态加载的内容

scrapy 2.3 调试内存泄漏

scrapy 2.3 下载和处理文件和图像

scrapy 2.3 如何部署蜘蛛

scrapy 2.3 AutoThrottle扩展