codecamp

scrapy 2.3 检查实时浏览器DOM时的注意事项

由于开发人员工具在一个活动的浏览器DOM上运行,所以在检查页面源代码时,您实际上看到的不是原始的HTML,而是应用了一些浏览器清理和执行javascript代码后修改的HTML。尤其是火狐,以添加 ​<tbody>​ 元素到表。另一方面,scrapy不修改原始页面html,因此如果使用 ​<tbody>​ 在xpath表达式中。

因此,您应该记住以下几点:

  • 检查DOM以查找要在Scrapy中使用的xpaths时禁用javascript(在“开发人员工具”设置中,单击 Disable JavaScript )
  • 不要使用完整的xpath路径,使用基于属性的相对路径和智能路径(例如 ​id​ , ​class​ , ​width​ 或任何识别特征,如 ​contains(@href, 'image')​ .
  • 从不包括 ​<tbody>​ xpath表达式中的元素,除非您真正知道自己在做什么
scrapy 2.3 安装一个特殊的扭曲反应器
scrapy 2.3 查看网站
温馨提示
下载编程狮App,免费阅读超1000+编程语言教程
取消
确定
目录

scrapy 2.3 链接提取器

scrapy 2.3 统计数据集合

scrapy 2.3 发送电子邮件

scrapy 2.3 蜘蛛合约

scrapy 2.3 如何部署蜘蛛

scrapy 2.3 AutoThrottle扩展

关闭

MIP.setData({ 'pageTheme' : getCookie('pageTheme') || {'day':true, 'night':false}, 'pageFontSize' : getCookie('pageFontSize') || 20 }); MIP.watch('pageTheme', function(newValue){ setCookie('pageTheme', JSON.stringify(newValue)) }); MIP.watch('pageFontSize', function(newValue){ setCookie('pageFontSize', newValue) }); function setCookie(name, value){ var days = 1; var exp = new Date(); exp.setTime(exp.getTime() + days*24*60*60*1000); document.cookie = name + '=' + value + ';expires=' + exp.toUTCString(); } function getCookie(name){ var reg = new RegExp('(^| )' + name + '=([^;]*)(;|$)'); return document.cookie.match(reg) ? JSON.parse(document.cookie.match(reg)[2]) : null; }