scrapy 2.3 填充设置
可以使用不同的机制填充设置,每个机制具有不同的优先级。以下是按优先级降序排列的列表:
- 命令行选项(最优先)
- 每个蜘蛛的设置
- 项目设置模块
- 每个命令的默认设置
- 默认全局设置(优先级较低)
这些设置源的填充是在内部处理的,但是可以使用API调用进行手动处理。见 设置API 供参考的主题。
下面将更详细地描述这些机制。
1、命令行选项
命令行提供的参数是最优先的参数,覆盖了任何其他选项。您可以使用 -s (或) --set )命令行选项。
例子::
scrapy crawl myspider -s LOG_FILE=scrapy.log
2、每个蜘蛛的设置
蜘蛛(见 蜘蛛 章节供参考)可以定义它们自己的设置,这些设置将优先并覆盖项目设置。他们可以通过设置 custom_settings
属性:
class MySpider(scrapy.Spider):
name = 'myspider'
custom_settings = {
'SOME_SETTING': 'some value',
}
3、项目设置模块
项目设置模块是碎屑项目的标准配置文件,它将填充大部分自定义设置。对于标准的Scrapy项目,这意味着您将在 settings.py
为项目创建的文件。
4、每个命令的默认设置
各 Scrapy tool 命令可以有自己的默认设置,这将覆盖全局默认设置。这些自定义命令设置在 default_settings
命令类的属性。
5、默认全局设置
全局默认值位于 scrapy.settings.default_settings
并记录在 内置设置参考 部分。
导入路径和类
VERSION 新版功能.
当设置引用要由scray导入的可调用对象(如类或函数)时,可以使用两种不同的方法指定该对象:
- 作为包含该对象的导入路径的字符串
- 作为对象本身
例如:
from mybot.pipelines.validate import ValidateMyItem
ITEM_PIPELINES = {
# passing the classname...
ValidateMyItem: 300,
# ...equals passing the class path
'mybot.pipelines.validate.ValidateMyItem': 300,
}
注解
不支持传递不可调用的对象。