scrapy 2.3 检查实时浏览器DOM时的注意事项
由于开发人员工具在一个活动的浏览器DOM上运行,所以在检查页面源代码时,您实际上看到的不是原始的HTML,而是应用了一些浏览器清理和执行javascript代码后修改的HTML。尤其是火狐,以添加 <tbody>
元素到表。另一方面,scrapy不修改原始页面html,因此如果使用 <tbody>
在xpath表达式中。
因此,您应该记住以下几点:
- 检查DOM以查找要在Scrapy中使用的xpaths时禁用javascript(在“开发人员工具”设置中,单击 Disable JavaScript )
- 不要使用完整的xpath路径,使用基于属性的相对路径和智能路径(例如
id
, class
, width
或任何识别特征,如 contains(@href, 'image')
. - 从不包括
<tbody>
xpath表达式中的元素,除非您真正知道自己在做什么