scrapy 2.3 避免被禁止

一些网站实施了某些措施，以防止僵尸爬行他们，不同程度的复杂度。绕开这些措施既困难又棘手，有时可能需要特殊的基础设施。请考虑联系 commercial support 如果有疑问。

以下是处理此类网站时要记住的一些提示：

将你的用户代理从浏览器中的一个著名的池中轮换出来（用google搜索以获得一个列表）。
禁用cookies（请参见 COOKIES_ENABLED ）因为有些网站可能会使用cookie来发现机器人行为
使用下载延迟（2或更高）。见 DOWNLOAD_DELAY 设置。
如果可能，使用 Google cache 获取页面，而不是直接访问站点
使用一个旋转的IP池。例如，自由 Tor project 或者像这样的付费服务 ProxyMesh . 开源替代方案是 scrapoxy ，可以将自己的代理附加到的超级代理。
使用一个在内部绕过BAN的高度分布式下载程序，这样您就可以专注于解析干净的页面。这种下载器的一个例子是 Crawlera

如果您仍然无法阻止您的bot被禁止，请考虑联系 commercial support .

w3cschool 编程狮，随时随地学编程