codecamp

scrapy 2.3 工具

您可以通过运行无参数的scrapy工具开始,它将打印一些用法帮助和可用的命令:

Scrapy X.Y - no active project

Usage:
  scrapy <command> [options] [args]

Available commands:
  crawl         Run a spider
  fetch         Fetch a URL using the Scrapy downloader
[...]

如果您在一个零碎的项目中,第一行将打印当前活动的项目。在本例中,它是从项目外部运行的。如果从项目内部运行,它将打印如下内容:

Scrapy X.Y - project: myproject

Usage:
  scrapy <command> [options] [args]

[...]

创建项目

你通常会做的第一件事就是 ​scrapy​ 工具是创建零碎项目:

scrapy startproject myproject [project_dir]

它将在 ​project_dir​ 目录。如果 ​project_dir​ 没有指定, ​project_dir​ 将与 ​myproject​ .

接下来,进入新的项目目录:

cd project_dir

你已经准备好使用 ​scrapy​ 从那里管理和控制项目的命令。

控制性项目

你使用 ​scrapy​ 从项目内部使用工具来控制和管理它们。

例如,要创建新的蜘蛛:

scrapy genspider mydomain mydomain.com

一些下流的命令(比如 ​crawl​ )必须从零碎的项目内部运行。见 commands reference 下面是关于必须从项目内部运行哪些命令的详细信息,而不是。

还要记住,当从内部项目运行某些命令时,它们的行为可能略有不同。例如,fetch命令将使用蜘蛛重写的行为(例如 ​user_agent​ 属性来重写用户代理)如果要获取的URL与某个特定的蜘蛛相关联。这是故意的,因为 ​fetch​ 命令用于检查蜘蛛如何下载页面。

scrapy 2.3 在项目之间共享根目录
scrapy 2.3 可用工具命令
温馨提示
下载编程狮App,免费阅读超1000+编程语言教程
取消
确定
目录

scrapy 2.3 链接提取器

scrapy 2.3 统计数据集合

scrapy 2.3 发送电子邮件

scrapy 2.3 蜘蛛合约

scrapy 2.3 如何部署蜘蛛

scrapy 2.3 AutoThrottle扩展

关闭

MIP.setData({ 'pageTheme' : getCookie('pageTheme') || {'day':true, 'night':false}, 'pageFontSize' : getCookie('pageFontSize') || 20 }); MIP.watch('pageTheme', function(newValue){ setCookie('pageTheme', JSON.stringify(newValue)) }); MIP.watch('pageFontSize', function(newValue){ setCookie('pageFontSize', newValue) }); function setCookie(name, value){ var days = 1; var exp = new Date(); exp.setTime(exp.getTime() + days*24*60*60*1000); document.cookie = name + '=' + value + ';expires=' + exp.toUTCString(); } function getCookie(name){ var reg = new RegExp('(^| )' + name + '=([^;]*)(;|$)'); return document.cookie.match(reg) ? JSON.parse(document.cookie.match(reg)[2]) : null; }