本文主要是介绍屏蔽搜索引擎蜘蛛的代码,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
有些时候我们会遇到这样的困难:我们原本不想被搜索引擎收录的网站\地址却被搜索引擎“无情”的收录,遇到这样的情况时,我们如何阻止搜索引擎收录我们不想被收录的文件呢?
我们常用的办法有两个,一个是编辑robots.txt文件,另外一个是在不想被收录的页面头部放置META NAME="ROBOTS"标签。
所谓的robots.txt文件,是每一个搜索引擎到你的网站之后要寻找和访问的第一个文件,robots.txt是你对搜索引擎制定的一个如何索引你的网站的规则。通过这个文件,搜索引擎就可以知道在你的网站中,哪些文件是可以被索引的,哪些文件是被拒绝索引的。
编辑rebots.txt文件就不说了。聊聊页面头部添加meta的方式
SEO优化meta标签 name="robots" content="index,follow,noodp,noydir",我们这就来解释一下。
<meta name="ROBOTS" content="NOODP">
这些元标记控制搜索引擎如何抓取和索引页。 "robots"元标记指定的规则适用于所有搜索引擎。Google可以理解以下值(当指定多个值时,用逗号将它们分开):
- noindex: 防止网页被索引
- nofollow: 不要通过当前页的链接来寻找并抓取新的网页
- nosnippet: 在搜索结果中显示当前页时,不要显示页面摘要
- noodp: 在为本页产生标题或页面摘要时,不要使用开放式目录项目(又名dmoz.org)中的文本
- noarchive: 在显示本网页于搜索结果中时,不要显示一个"网页快照"链接
- unavailable_after:[日期]:在指定的日期和时间后从搜索结果中删除这个网页
当你完全省略此标记或当你指定content= "all"时,默认规则是"index, follow"。"作为一个说明,你现在也可以在你的页面首部通过"X-Robots-标签"HTTP头指令来指定这一信息。这特别有用,尤其是当你想微调抓取和索引诸如PDF、图片或其他类型的非HTML文件时。
这篇关于屏蔽搜索引擎蜘蛛的代码的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!