codecamp

scrapy 2.3 shell启动外壳

要启动碎屑壳,可以使用 ​shell​ 命令如下:

scrapy shell <url>

何处 ​<url>​ 是要擦除的URL。

shell​ 也适用于本地文件。如果你想玩一个网页的本地副本,这很方便。 ​shell​ 了解本地文件的以下语法::

# UNIX-style
scrapy shell ./path/to/file.html
scrapy shell ../other/path/to/file.html
scrapy shell /absolute/path/to/file.html

# File URI
scrapy shell file:///absolute/path/to/file.html

注解

使用相对文件路径时,请显式并用 ​./​ (或) ​../​ 相关时)。 ​scrapy shell index.html​ 不会像人们预期的那样工作(这是设计上的,而不是错误)。

因为 ​shell​ 喜欢HTTP URL而不是文件URI,以及 ​index.html​ 在句法上类似于 ​example.com​ , ​shell​ 会治疗 ​index.html​ 作为域名并触发DNS查找错误::

$ scrapy shell index.html
[ ... scrapy shell starts ... ]
[ ... traceback ... ]
twisted.internet.error.DNSLookupError: DNS lookup failed:
address 'index.html' not found: [Errno -5] No address associated with hostname.

shell​ 如果文件调用了 ​index.html​ 存在于当前目录中。同样,要明确。

scrapy 2.3 配置shell
scrapy 2.3 shell可用快捷方式
温馨提示
下载编程狮App,免费阅读超1000+编程语言教程
取消
确定
目录

scrapy 2.3 链接提取器

scrapy 2.3 统计数据集合

scrapy 2.3 发送电子邮件

scrapy 2.3 蜘蛛合约

scrapy 2.3 如何部署蜘蛛

scrapy 2.3 AutoThrottle扩展

关闭

MIP.setData({ 'pageTheme' : getCookie('pageTheme') || {'day':true, 'night':false}, 'pageFontSize' : getCookie('pageFontSize') || 20 }); MIP.watch('pageTheme', function(newValue){ setCookie('pageTheme', JSON.stringify(newValue)) }); MIP.watch('pageFontSize', function(newValue){ setCookie('pageFontSize', newValue) }); function setCookie(name, value){ var days = 1; var exp = new Date(); exp.setTime(exp.getTime() + days*24*60*60*1000); document.cookie = name + '=' + value + ';expires=' + exp.toUTCString(); } function getCookie(name){ var reg = new RegExp('(^| )' + name + '=([^;]*)(;|$)'); return document.cookie.match(reg) ? JSON.parse(document.cookie.match(reg)[2]) : null; }