scrapy 2.3 如何部署蜘蛛
本节描述了部署报废蜘蛛以定期运行它们的不同选项。在您的本地机器中运行 Scrapy 蜘蛛对于(早期)开发阶段非常方便,但是当您需要执行长时间运行的蜘蛛或移动蜘蛛以在生产中连续运行时,就不那么方便了。这就是部署报废蜘蛛的解决方案。
部署报废蜘蛛的常见选择是:
- Scrapyd (开放源代码)
- Scrapy Cloud (基于云的)
部署到ScrapyD服务器
Scrapyd 是一个开放源码的应用程序,可以运行 Scrapy 蜘蛛。它为服务器提供了HTTP API,能够运行和监视 Scrapy 蜘蛛。
要将spiders部署到scrapyD,可以使用由提供的scrapyD部署工具 scrapyd-client 包裹。请参阅 scrapyd-deploy documentation 更多信息。
ScrapyD由一些Scrapy开发人员维护。
部署到 Scrapy 云
Scrapy Cloud 是基于云的托管服务 Scrapinghub 斯普利背后的公司。
ScrapyCloud消除了设置和监视服务器的需要,并提供了一个很好的用户界面来管理spider和查看被爬取的项目、日志和统计信息。
要将蜘蛛部署到 Scrapy 云,可以使用 shub 命令行工具。请参阅 Scrapy Cloud documentation 更多信息。
Scrapy Cloud与ScrapyD兼容,您可以根据需要在它们之间进行切换-配置从 scrapy.cfg 文件就像 scrapyd-deploy .