robots协议最容易忽略却很致命的小细节
在我看来robots协议就是站长行使网站支配权的执行文件,这是我们作为站长最基本的权利。它是搜索引擎蜘蛛爬取网站之前要面对的第一道关口,所以robots协议的重要性也是可想而知了。都说细节决定成败,那么越重要的东西细节就 […]
在我看来robots协议就是站长行使网站支配权的执行文件,这是我们作为站长最基本的权利。它是搜索引擎蜘蛛爬取网站之前要面对的第一道关口,所以robots协议的重要性也是可想而知了。都说细节决定成败,那么越重要的东西细节就显得尤为重要,往往自己一不小心忽略的一个细节到最后就可能会成为你的致命一击。本人之所以会这么说,是因为我差点就成了这个问题的反面教材了,还好发现的及时也算是亡羊补牢吧!之所以想立即分享给大家,就是希望大家以后自己做站的时候要避免犯类似的错误。
事情其实就发生在今天,经过是这样的:因为小明SEO博客也刚做好不久,前几天网站上线之后发现还有很多小问题需要处理,为了避免网站还在调整的过程中就被搜索引擎抓取到,所以我在robots协议里面写了禁止所有搜索引擎爬取网站任何部分的指令,网站的调整一直持续了几天(之所以会弄这么长时间是因为我是一个不能容忍瑕疵的人,不知道这算不算强迫症的一种),直到昨天也就是2月3号才全面竣工,但是这期间我每天都在坚持添加原创文章。昨天网站检查完毕,全部问题都解决好以后,我就把robots协议重新更换了过来,并且发了一篇帖子引了蜘蛛希望爬虫能快点过来爬我的网站。就这样,到了今天早上发现网站还是没有被收录,于是我就去百度站长工具平台看一下我的网站到底是个什么情况,进去一看吓我一跳,因为我看到了下面一则(如图所示)信息:
我的网站竟然对百度进行了全面封禁,检测时间是在今天(2月4号)早上凌晨5点整的时候,这让我像丈二的和尚摸不着头脑了,太不科学了,因为我在昨天2月3号上午已经把网站的robots协议更改过来了,真的是太奇怪了。就在我百思不得其解的时候总算是通过站长平台工具的“robots检测”找到了答案,看下图:
原来百度蜘蛛早就在我网站蜘蛛上线后的第三天抓取了我网站的robots协议,所以当前生效的协议也就是当时它抓取到的我把蜘蛛全部屏蔽时的那个,而本站最新的robot协议还没有生效。这下我总算是明白了过来了,既然弄清楚了原因那事情就好办了。于是我立即把协议提交更新了一下,如下图:
更新以后一分钟内协议就更新过来了,如下图:
可以看到,当前本站最新的robots已经开始生效了,就这样到了下午,当我再次进入百度站长平台就收到了新消息,如下图所示:
至此网站已经解除了robots协议对百度的全面封禁,检测时间显示的是今天下午两点整。到了晚上也差不多就是在三个多小时以前,当我再次检查网站收录情况的时候,网站首页已经被收录了。如下图:
网站终于被收录了,但让我最开心的还是我通过自己的努力找到问题并解决了问题,这才是我今天最大的收获。当然了如果这个问题我发现不了,可能网站再过十天半个月也会毫无起色,所以我要提醒大家的就是关于robots协议在封禁蜘蛛之后到后期在解封的时候一定要记得及时更新robots协议,这是一个不容被忽视的小细节。也许按照自己的一贯常识觉得只要通过输入“http:\\域名\robots.txt看一下网站的协议改过来了没有就可以了,但是通过实践证明这种方式也不是完全可靠的,所以一定要记住我这次的经验教训,robots一旦进行调整就一定要记得及时提交更新,不然被蜘蛛抓取了不该抓的或者一直把蜘蛛拒之门外耽误了自己的时间那就真的是后悔莫及了。
温馨小提示:刚才看了一下时间,已经转钟到了第二天了,写这篇文章的时候是在2月4号,但是现在发布的时间已经转点到2月5号了,所以文章提到的“今天”也就是2月4号,希望大家不要看糊涂了。