codecamp

百度抓取异常处理

什么是抓取异常

  Baiduspider无法正常抓取,就是抓取异常。

抓取异常对网站有哪些影响

  对于大量内容无法正常抓取的网站,搜索引擎会认为网站存在用户体验上的缺陷,并降低对网站的评价,在抓取、索引、权重上都会受到一定程度的负面影响,最终影响到网站从百度获取的流量。

抓取异常的原因有哪些

一、网站异常

1dns异常
  当Baiduspider无法解析您网站的IP时,会出现DNS异常。可能是您的网站IP地址错误,或者域名服务商把Baiduspider封禁。请使用WHOIS或者host查询自己网站IP地址是否正确且可解析,如果不正确或无法解析,请与域名注册商联系,更新您的IP地址。

2、连接超时
  抓取请求连接超时,可能原因服务器过载,网络不稳定

3、抓取超时
  抓取请求连接建立后,下载页面速度过慢,导致超时,可能原因服务器过载,带宽不足

4、连接错误
  无法连接或者连接建立后对方服务器拒绝

二、链接异常

1、访问被拒绝
  爬虫发起抓取,httpcode返回码是403

2、找不到页面
  爬虫发起抓取,httpcode返回码是404

3、服务器错误
  爬虫发起抓取,httpcode返回码是5XX

4、其他错误
  爬虫发起抓取,httpcode返回码是4XX,不包括403404

百度抓取诊断工具
站点子链
温馨提示
下载编程狮App,免费阅读超1000+编程语言教程
取消
确定
目录

关闭

MIP.setData({ 'pageTheme' : getCookie('pageTheme') || {'day':true, 'night':false}, 'pageFontSize' : getCookie('pageFontSize') || 20 }); MIP.watch('pageTheme', function(newValue){ setCookie('pageTheme', JSON.stringify(newValue)) }); MIP.watch('pageFontSize', function(newValue){ setCookie('pageFontSize', newValue) }); function setCookie(name, value){ var days = 1; var exp = new Date(); exp.setTime(exp.getTime() + days*24*60*60*1000); document.cookie = name + '=' + value + ';expires=' + exp.toUTCString(); } function getCookie(name){ var reg = new RegExp('(^| )' + name + '=([^;]*)(;|$)'); return document.cookie.match(reg) ? JSON.parse(document.cookie.match(reg)[2]) : null; }