scrapy 调用 parse(),parse() 调用 func() 使用 yield

2020-12-30 15:50:47 浏览数 (5163)

在scrapy中调用parse()方法,parse()方法中调用其他函数func(),func需要返回Item,使用方法如下:

#在parse()中调用其他yield函数,需要写成写成循环并yield其中的内容

def parse():

    # 正确调用

    for item in parse_comment(a, b):

        yield item

    # 错误调用,无法得到数据

    parse_comment(a, b)

def parse_comment(a,b):

    for a in b:

        yield c

yield

yield 的作用就是把一个函数变成一个生成器(generator),带有yield的函数不再是一个普通函数.Python解释器会将其视为一个generator,单独调用(如fab(5))不会执行fab函数,而是返回一个 iterable 对象!

在for循环执行时,每次循环都会执行fab函数内部的代码,执行到yield b时,fab函数就返回一个迭代值,下次迭代时,代码从 yield b 的下一条语句继续执行,而函数的本地变量看起来和上次中断执行前是完全一样的,于是函数继续执行,直到再次遇到 yield。

结论:yield要使用在循环中,这样生成器才有使用的意义。

def fab(max):

   n, a, b = 0, 0, 1

   while n < max:

      # print b

      yield b

      # print b

      a, b = b, a + b

      n = n + 1

print(fab(5))  # 输出:<generator object fab at 0x00000000069D8A68>

for n in fab(5):

    print n    # 依次1,1,2,3,5

#对于含有yield的函数,外部要以迭代的方式调用,当函数执行结束时,generator 自动抛出 StopIteration 异常,表示迭代完成。

# 在 for 循环里,无需处理 StopIteration 异常,循环会正常结束。

def ff(max):

   a,b = 0,1

   yield max  # yield不在循环中,这里已经到函数最后所以直接返回,相当于return

for n in ff(5):

   print n    # 输出:5

推荐好课:Python 静态爬虫Python Scrapy网络爬虫