scrapy 2.3 XMLFeedSpider

classscrapy.spiders.XMLFeedSpider

XMLFeedSpider是为解析XML提要而设计的，它通过使用特定的节点名对这些提要进行迭代。迭代器可以从以下选项中选择： iternodes ， xml 和 html . 建议使用 iternodes 由于性能原因，迭代器 xml 和 html 迭代器一次生成整个DOM以便解析它。然而，使用 html 因为迭代器在分析带有错误标记的XML时可能很有用。

要设置迭代器和标记名，必须定义以下类属性：

iterator

定义要使用的迭代器的字符串。它可以是：

'iternodes' -基于正则表达式的快速迭代器

'html' -使用的迭代器 Selector . 请记住，这使用了DOM解析，必须将所有的DOM加载到内存中，这对于大型提要来说可能是一个问题。

'xml' -使用的迭代器 Selector . 请记住，这使用了DOM解析，必须将所有的DOM加载到内存中，这对于大型提要来说可能是一个问题。

默认为： 'iternodes' .

itertag

具有要迭代的节点（或元素）名称的字符串。例子：：

itertag = 'product'

namespaces

列表 (prefix, uri) 定义该文档中可用的命名空间的元组，这些命名空间将使用此蜘蛛进行处理。这个 prefix 和 uri 将用于使用 register_namespace() 方法。

然后，可以在 itertag 属性。

例子：

class YourSpider(XMLFeedSpider):

    namespaces = [('n', 'http://www.sitemaps.org/schemas/sitemap/0.9')]
    itertag = 'n:url'
    # ...

除了这些新属性之外，这个蜘蛛还具有以下可重写的方法：

adapt_response(response): 一种方法，当响应从蜘蛛中间件到达时，在蜘蛛开始解析它之前，立即接收响应。它可以用于在解析响应体之前对其进行修改。此方法接收响应并返回响应（可以是相同的或另一个响应）。

parse_node(response, selector): 对与提供的标记名匹配的节点调用此方法 (itertag ）接收响应和 Selector 对于每个节点。重写此方法是必需的。否则，你的蜘蛛就不能工作了。此方法必须返回 item object ，A Request 对象，或包含任何对象的iterable。

process_results(response, results): 这个方法是为spider返回的每个结果（项或请求）调用的，它用于在将结果返回到框架核心之前执行所需的任何最后一次处理，例如设置项id。它接收结果列表和产生这些结果的响应。它必须返回结果列表（项或请求）。

警告

由于其内部实现，在编写时必须显式设置新请求的回调 XMLFeedSpider -基于蜘蛛；否则会发生意外行为。

XmlFeedSpider示例

这些蜘蛛很容易使用，让我们来看一个例子：

from scrapy.spiders import XMLFeedSpider
from myproject.items import TestItem

class MySpider(XMLFeedSpider):
    name = 'example.com'
    allowed_domains = ['example.com']
    start_urls = ['http://www.example.com/feed.xml']
    iterator = 'iternodes'  # This is actually unnecessary, since it's the default value
    itertag = 'item'

    def parse_node(self, response, node):
        self.logger.info('Hi, this is a <%s> node!: %s', self.itertag, ''.join(node.getall()))

        item = TestItem()
        item['id'] = node.xpath('@id').get()
        item['name'] = node.xpath('name').get()
        item['description'] = node.xpath('description').get()
        return item

基本上，我们所做的就是创建一个蜘蛛，从给定的 start_urls ，然后遍历 item 标签，打印出来，并将一些随机数据存储在 Item .

w3cschool 编程狮，随时随地学编程

scrapy 2.3 XMLFeedSpider

XmlFeedSpider示例

scrapy 2.3 安装指南

scrapy 2.3 教程

scrapy 2.3 命令行工具

scrapy 2.3 蜘蛛

scrapy 2.3 选择器

scrapy 2.3 使用选择器

scrapy 2.3 使用xpaths

scrapy 2.3 使用exslt扩展

scrapy 2.3 内置选择器引

scrapy 2.3 选择器实例

scrapy 2.3 项目

scrapy 2.3 项目类型

scrapy 2.3 使用项目对象

scrapy 2.3 使用项目对象

scrapy 2.3 项目加载器

scrapy 2.3 shell

scrapy 2.3 shell使用外壳

scrapy 2.3 项目管道

scrapy 2.3 项目管道示例

scrapy 2.3 Feed导出

scrapy 2.3 请求和响应

无标题文章

scrapy 2.3 请求子类

scrapy 2.3 链接提取器

scrapy 2.3 设置

scrapy 2.3 登录

scrapy 2.3 日志记录配置

scrapy 2.3 统计数据集合

scrapy 2.3 发送电子邮件

scrapy 2.3 远程登录控制台

scrapy 2.3 常见问题

scrapy 2.3 调试spiders

scrapy 2.3 蜘蛛合约

scrapy 2.3 常用做法

scrapy 2.3 宽爬行

scrapy 2.3 使用浏览器的开发人员工具进行抓取

scrapy 2.3 选择动态加载的内容

scrapy 2.3 调试内存泄漏

scrapy 2.3 下载和处理文件和图像

scrapy 2.3 如何部署蜘蛛

scrapy 2.3 AutoThrottle扩展