scrapy 调用 parse(),parse() 调用 func() 使用 yield
在scrapy中调用parse()方法,parse()方法中调用其他函数func(),func需要返回Item,使用方法如下:
#在parse()中调用其他yield函数,需要写成写成循环并yield其中的内容
def parse():
# 正确调用
for item in parse_comment(a, b):
yield item
# 错误调用,无法得到数据
parse_comment(a, b)
def parse_comment(a,b):
for a in b:
yield c
yield
yield 的作用就是把一个函数变成一个生成器(generator),带有yield的函数不再是一个普通函数.Python解释器会将其视为一个generator,单独调用(如fab(5))不会执行fab函数,而是返回一个 iterable 对象!
在for循环执行时,每次循环都会执行fab函数内部的代码,执行到yield b时,fab函数就返回一个迭代值,下次迭代时,代码从 yield b 的下一条语句继续执行,而函数的本地变量看起来和上次中断执行前是完全一样的,于是函数继续执行,直到再次遇到 yield。
结论:yield要使用在循环中,这样生成器才有使用的意义。
def fab(max):
n, a, b = 0, 0, 1
while n < max:
# print b
yield b
# print b
a, b = b, a + b
n = n + 1
print(fab(5)) # 输出:<generator object fab at 0x00000000069D8A68>
for n in fab(5):
print n # 依次1,1,2,3,5
#对于含有yield的函数,外部要以迭代的方式调用,当函数执行结束时,generator 自动抛出 StopIteration 异常,表示迭代完成。
# 在 for 循环里,无需处理 StopIteration 异常,循环会正常结束。
def ff(max):
a,b = 0,1
yield max # yield不在循环中,这里已经到函数最后所以直接返回,相当于return
for n in ff(5):
print n # 输出:5
推荐好课:Python 静态爬虫、Python Scrapy网络爬虫