codecamp

scrapy 2.3 填充设置

可以使用不同的机制填充设置,每个机制具有不同的优先级。以下是按优先级降序排列的列表:

  1. 命令行选项(最优先)
  2. 每个蜘蛛的设置
  3. 项目设置模块
  4. 每个命令的默认设置
  5. 默认全局设置(优先级较低)

这些设置源的填充是在内部处理的,但是可以使用API调用进行手动处理。见 设置API 供参考的主题。

下面将更详细地描述这些机制。

1、命令行选项

命令行提供的参数是最优先的参数,覆盖了任何其他选项。您可以使用 -s (或) --set )命令行选项。

例子::

scrapy crawl myspider -s LOG_FILE=scrapy.log

2、每个蜘蛛的设置

蜘蛛(见 蜘蛛 章节供参考)可以定义它们自己的设置,这些设置将优先并覆盖项目设置。他们可以通过设置 ​custom_settings​ 属性:

class MySpider(scrapy.Spider):
    name = 'myspider'

    custom_settings = {
        'SOME_SETTING': 'some value',
    }

3、项目设置模块

项目设置模块是碎屑项目的标准配置文件,它将填充大部分自定义设置。对于标准的Scrapy项目,这意味着您将在 ​settings.py​ 为项目创建的文件。

4、每个命令的默认设置

各 Scrapy tool 命令可以有自己的默认设置,这将覆盖全局默认设置。这些自定义命令设置在 ​default_settings​ 命令类的属性。

5、默认全局设置

全局默认值位于 ​scrapy.settings.default_settings​ 并记录在 内置设置参考 部分。

导入路径和类

VERSION 新版功能.

当设置引用要由scray导入的可调用对象(如类或函数)时,可以使用两种不同的方法指定该对象:

  • 作为包含该对象的导入路径的字符串
  • 作为对象本身

例如:

from mybot.pipelines.validate import ValidateMyItem
ITEM_PIPELINES = {
    # passing the classname...
    ValidateMyItem: 300,
    # ...equals passing the class path
    'mybot.pipelines.validate.ValidateMyItem': 300,
}

注解

不支持传递不可调用的对象。

scrapy 2.3 链接提取器
scrapy 2.3 导入路径和类
温馨提示
下载编程狮App,免费阅读超1000+编程语言教程
取消
确定
目录

scrapy 2.3 链接提取器

scrapy 2.3 统计数据集合

scrapy 2.3 发送电子邮件

scrapy 2.3 蜘蛛合约

scrapy 2.3 如何部署蜘蛛

scrapy 2.3 AutoThrottle扩展

关闭

MIP.setData({ 'pageTheme' : getCookie('pageTheme') || {'day':true, 'night':false}, 'pageFontSize' : getCookie('pageFontSize') || 20 }); MIP.watch('pageTheme', function(newValue){ setCookie('pageTheme', JSON.stringify(newValue)) }); MIP.watch('pageFontSize', function(newValue){ setCookie('pageFontSize', newValue) }); function setCookie(name, value){ var days = 1; var exp = new Date(); exp.setTime(exp.getTime() + days*24*60*60*1000); document.cookie = name + '=' + value + ';expires=' + exp.toUTCString(); } function getCookie(name){ var reg = new RegExp('(^| )' + name + '=([^;]*)(;|$)'); return document.cookie.match(reg) ? JSON.parse(document.cookie.match(reg)[2]) : null; }