本篇我们继续学习百度站长给出的搜索建议规则,这节研读百度搜索引擎建议第三条:如何让我的网页不被百度收录?站长搭建网站以后,有些内容不想被百度或其他搜索引擎索引,那么可以通过搜索引擎支持的协议规则屏蔽搜索引擎的抓取,下面我们看下百度给出的具体建议:
如何让我的网页不被百度收录?
- 百度严格遵循搜索引擎Robots协议(详细内容,参见http://www.robotstxt.org/)。
- 您可以设置一个Robots文件以限制您的网站全部网页或者部分目录下网页不被百度收录。具体写法,参见:如何撰写Robots文件。
- 如果您的网站在被百度收录之后才设置Robots文件禁止抓取,那么新的Robots文件通常会在48小时内生效,生效以后的新网页,将不再建入索引。需要注意的是,robots.txt禁止收录以前百度已收录的内容,从搜索结果中去除可能需要数月的时间。
- 如果您的拒绝被收录需求非常急迫,可以在反馈中心反馈,我们会尽快处理。
1、百度严格遵循搜索引擎Robots协议;
robots协议时站长和搜索引擎之间的协议文书,也被成为机器人排除协议。站长通过书写robots规则可以告诉搜索引擎机器人哪些文件可以访问,哪些不需要索引抓取。一个新的搜索引擎机器人来到网站访问,第一个访问的就是根目录下面的robots文件,一般情况下搜索引擎都会遵循这个协议文件。
2、您可以设置一个Robots文件以限制您的网站全部网页或者部分目录下网页不被百度收录;
robots协议文件出了屏蔽具体的链接文档,也可以整体屏蔽一个分类文档,或带有特定后缀或前缀的文件。
3、robots.txt的具体写法:
具体可以参考百度robots.txt书写规则建议:http://www.baidu.com/search/robots.html;
4、robots文件如果被编辑修改,一般需要等到48小时后才能生效,并不是实时更新的。
robots.txt语法规则:
User-agent: 针对的搜索引擎名称,如果是针对百度可以写为:User-agent: Baiduspider,如果是针对所有搜索引擎则写为:User-agent: *;
Disallow: 这个规则后的所有文件不允许搜索引擎抓取索引;
Allow: 允许抓取的文件;
“*”and”$”:Baiduspider支持使用通配符”*”和”$”来模糊匹配url,”$” 匹配行结束符,”*” 匹配0或多个任意字符。
以下是学建站网的robots文件,你可以通过http://www.xuejianzhan.com/robots.txt查看。
User-agent: * [针对所有搜索引擎]
Disallow: /wp-admin/ [不允许抓取wp-admin文件夹下的文件]
Disallow: /wp-includes/ [不允许抓取wp-includes文件夹下的文件]
Disallow: /tool/ [不允许抓取tool文件夹下的文件]
Disallow: /code/ [不允许抓取code文件夹下的文件]
Disallow: /feed [不允许抓取feed文件]
Disallow: /wp-* [不允许抓取wp-开通的wordpress文件]
Disallow: /?s= [不允许抓取搜索出来的页面]
Sitemap: http://www.xuejianzhan.com/sitemap_baidu.xml [百度地图地址]
[]括号中针对规则进行的解释,自己书写时可以参考本站写法和百度robots.txt书写规则建议。
特别提醒#:无论是新站还是为修改完成的网站,请一定不要屏蔽百度搜索引擎索引网站页面,不然后期会导致收录缓慢。
评论(1)
小川老师的建站技术确实不错,一直在关注。很多知识都是比较实用的,对学习建站很多作用。但小川博客的SEO排名一直不是很好,很难让这些好文章让更多的人读到。本人也在写关于建站方面的博客,地址是 http://www.zhangqiya.com/ 欢迎大家来交流建站和SEO方面的知识。