scrapy 2.3 工具
您可以通过运行无参数的scrapy工具开始,它将打印一些用法帮助和可用的命令:
Scrapy X.Y - no active project
Usage:
scrapy <command> [options] [args]
Available commands:
crawl Run a spider
fetch Fetch a URL using the Scrapy downloader
[...]
如果您在一个零碎的项目中,第一行将打印当前活动的项目。在本例中,它是从项目外部运行的。如果从项目内部运行,它将打印如下内容:
Scrapy X.Y - project: myproject
Usage:
scrapy <command> [options] [args]
[...]
创建项目
你通常会做的第一件事就是 scrapy
工具是创建零碎项目:
scrapy startproject myproject [project_dir]
它将在 project_dir
目录。如果 project_dir
没有指定, project_dir
将与 myproject
.
接下来,进入新的项目目录:
cd project_dir
你已经准备好使用 scrapy
从那里管理和控制项目的命令。
控制性项目
你使用 scrapy
从项目内部使用工具来控制和管理它们。
例如,要创建新的蜘蛛:
scrapy genspider mydomain mydomain.com
一些下流的命令(比如 crawl
)必须从零碎的项目内部运行。见 commands reference 下面是关于必须从项目内部运行哪些命令的详细信息,而不是。
还要记住,当从内部项目运行某些命令时,它们的行为可能略有不同。例如,fetch命令将使用蜘蛛重写的行为(例如 user_agent
属性来重写用户代理)如果要获取的URL与某个特定的蜘蛛相关联。这是故意的,因为 fetch
命令用于检查蜘蛛如何下载页面。