scrapy 2.3 工具

您可以通过运行无参数的scrapy工具开始，它将打印一些用法帮助和可用的命令：

Scrapy X.Y - no active project

Usage:
  scrapy <command> [options] [args]

Available commands:
  crawl         Run a spider
  fetch         Fetch a URL using the Scrapy downloader
[...]

如果您在一个零碎的项目中，第一行将打印当前活动的项目。在本例中，它是从项目外部运行的。如果从项目内部运行，它将打印如下内容：

Scrapy X.Y - project: myproject

Usage:
  scrapy <command> [options] [args]

[...]

创建项目

你通常会做的第一件事就是 scrapy 工具是创建零碎项目：

scrapy startproject myproject [project_dir]

它将在 project_dir 目录。如果 project_dir 没有指定， project_dir 将与 myproject .

接下来，进入新的项目目录：

cd project_dir

你已经准备好使用 scrapy 从那里管理和控制项目的命令。

控制性项目

你使用 scrapy 从项目内部使用工具来控制和管理它们。

例如，要创建新的蜘蛛：

scrapy genspider mydomain mydomain.com

一些下流的命令（比如 crawl ）必须从零碎的项目内部运行。见 commands reference 下面是关于必须从项目内部运行哪些命令的详细信息，而不是。

还要记住，当从内部项目运行某些命令时，它们的行为可能略有不同。例如，fetch命令将使用蜘蛛重写的行为（例如 user_agent 属性来重写用户代理）如果要获取的URL与某个特定的蜘蛛相关联。这是故意的，因为 fetch 命令用于检查蜘蛛如何下载页面。

w3cschool 编程狮，随时随地学编程

scrapy 2.3 工具

创建项目

控制性项目

scrapy 2.3 安装指南

scrapy 2.3 教程

scrapy 2.3 命令行工具

scrapy 2.3 蜘蛛

scrapy 2.3 选择器

scrapy 2.3 使用选择器

scrapy 2.3 使用xpaths

scrapy 2.3 使用exslt扩展

scrapy 2.3 内置选择器引

scrapy 2.3 选择器实例

scrapy 2.3 项目

scrapy 2.3 项目类型

scrapy 2.3 使用项目对象

scrapy 2.3 使用项目对象

scrapy 2.3 项目加载器

scrapy 2.3 shell

scrapy 2.3 shell使用外壳

scrapy 2.3 项目管道

scrapy 2.3 项目管道示例

scrapy 2.3 Feed导出

scrapy 2.3 请求和响应

无标题文章

scrapy 2.3 请求子类

scrapy 2.3 链接提取器

scrapy 2.3 设置

scrapy 2.3 登录

scrapy 2.3 日志记录配置

scrapy 2.3 统计数据集合

scrapy 2.3 发送电子邮件

scrapy 2.3 远程登录控制台

scrapy 2.3 常见问题

scrapy 2.3 调试spiders

scrapy 2.3 蜘蛛合约

scrapy 2.3 常用做法

scrapy 2.3 宽爬行

scrapy 2.3 使用浏览器的开发人员工具进行抓取

scrapy 2.3 选择动态加载的内容

scrapy 2.3 调试内存泄漏

scrapy 2.3 下载和处理文件和图像

scrapy 2.3 如何部署蜘蛛

scrapy 2.3 AutoThrottle扩展