robots.txt用法介绍,网站优化

2024-06-05 16:58

本文主要是介绍robots.txt用法介绍,网站优化,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

robots.txt是一个纯文本文件,在这个文件中网站管理者可以声明该网站中不想被robots访问的部分,或者指定搜索引擎只收录指定的内容,注意这是一个针对搜索引擎的一个文件。


当一个搜索机器人(有的叫搜索蜘蛛)访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,那么搜索机器人就沿着链接抓取。


另外,robots.txt必须放置在一个站点的根目录下,而且文件名必须全部小写。


robots.txt写作语法


首先,我们来看一个robots.txt范例:http://www.phpernote.com/robots.txt


访问以上具体地址,我们可以看到robots.txt的具体内容如下:


User-agent: *
Allow: /
#下列目录除外
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/


以上文本表达的意思是允许所有的搜索机器人访问phpernote.com站点下的除了 wp-admin/,wp-includes/,wp-contents 这几个目录外其他的所有文件。


具体语法分析:其中#后面文字为注释说明信息;User-agent:后面为搜索机器人的名称,后面如果是*,则泛指所有的搜索机器人;Disallow:后面为不允许访问的文件目录。


下面,我将列举一些robots.txt的具体用法:


允许所有的搜索引擎访问网站所有的部分的robot写法:


User-agent: *
Disallow:


或者也可以建一个空文件 robots.txt 文件,功能同上。


禁止所有搜索引擎访问网站的任何部分的robots写法:


User-agent: *
Disallow: /


禁止所有搜索引擎访问网站的某几个部分(下例中的01、02、03目录)的robots写法:


User-agent: *
Disallow: /01/
Disallow: /02/
Disallow: /03/


禁止某个搜索引擎的访问(如下例中禁止百度引擎抓取)的robots写法:


User-agent: Baiduspider
Disallow: /


注意:以上写法只禁止了百度搜索引擎的抓取,其他搜索引擎还是可以来抓取的。


只允许某个搜索引擎的访问(如下例中只允许谷歌搜索引擎抓取站点内容)的robots写法:


User-agent: Googlebot
Disallow:
User-agent: *
Disallow: /


禁止搜索引擎抓取自己网站图片(禁止图片抓取)的robots写法:


User-agent: *
Disallow: .jpg$
Disallow: .jpeg$
Disallow: .gif$
Disallow: .png$
Disallow: .bmp$


如果你的网站有动态和静态两种形式的网页,你只允许抓取静态页面(禁止动态页面)的robots写法:


User-agent: *
Disallow: /*?*


下面顺便将各大搜索引擎的蜘蛛的名字分享一下(这里仅列举中国国内比较常用的一些搜索引擎):


google蜘蛛:Googlebot
百度蜘蛛:Baiduspider
搜狗蜘蛛:sogou spider
360蜘蛛:360Spider
yahoo蜘蛛:Yahoo!slurp
alexa蜘蛛:ia_archiver
bing蜘蛛:MSNbot
Soso蜘蛛:Sosospider
Google Adsense蜘蛛:Mediapartners-Google
有道蜘蛛:YoudaoBot


robots 用于定义网页搜索引擎索引方式。robots meta 标签跟任何一种META标签是一样的,robots meta 放置在HTML网页代码的 head 之内。


robots 语法
<meta name="robots" content="robotterms" />


robotterms 是一组使用逗号(,)分割的值,通常有如下几种取值:none,noindex,nofollow,all,index和follow。各个值得具体释义如下:


none 搜索引擎将忽略此网页,等价于noindex,nofollow。


noindex 搜索引擎不索引此网页。


nofollow 搜索引擎不继续通过此网页的链接索引搜索其它的网页。


all 搜索引擎将索引此网页与继续通过此网页的链接索引,等价于index,follow。


index 搜索引擎索引此网页。


follow 搜索引擎继续通过此网页的链接索引搜索其它的网页。


注:如页面没有定义该标签,则默认是 <meta name="robots" content="index,follow" />


以下为具体的使用示例:


<meta name="robots" content="index,follow" />


上面示例定义了此网页可以被搜索引擎索引进数据库并且搜索引擎可以通过此网页的链接继续索引其它网页,但如上定义没有实际作用,因为默认的值就是 index,follow 。


<meta name="robots" content="noindex" />
//或者 <meta name="robots" content="noindex,follow" />


上面示例定义了此网页不被搜索引擎索引进数据库,但搜索引擎可以通过此网页的链接继续索引其它网页


<meta name="robots" content="index,nofollow" />
//或者 <meta name="robots" content="nofollow" />


上面示例定义了此网页可被搜索引擎索引进数据库,但搜索引擎不可以通过此网页的链接继续索引其它网页


<meta name="robots" content="noindex,nofollow" />
//或者 <meta name="robots" content="none" />


上面示例定义了此网页不被搜索引擎索引进数据库并且搜索引擎不可以通过此网页的链接继续索引其它网页


当content需要包含多个属性的时候需要用英文逗号隔离,注意同种属性正反两个方面(例如:index与noindex)不能同时出现在content之中。


注:目前只有少数的机器人支持此标签!谷歌,必应,雅虎均支持以上标签值,百度官方说法是目前只支持 noarchive 和 nofollow 。


(1)只针对谷歌 GOOGLEBOT 使用 robots
<meta name="googlebot" content="noindex,nofollow" />
(2)只针对百度 baiduspider 使用 robots
<meta name="baiduspider" content="noarchive,nofollow" />

这篇关于robots.txt用法介绍,网站优化的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1033641

相关文章

全面掌握 SQL 中的 DATEDIFF函数及用法最佳实践

《全面掌握SQL中的DATEDIFF函数及用法最佳实践》本文解析DATEDIFF在不同数据库中的差异,强调其边界计算原理,探讨应用场景及陷阱,推荐根据需求选择TIMESTAMPDIFF或inte... 目录1. 核心概念:DATEDIFF 究竟在计算什么?2. 主流数据库中的 DATEDIFF 实现2.1

MySQL中的LENGTH()函数用法详解与实例分析

《MySQL中的LENGTH()函数用法详解与实例分析》MySQLLENGTH()函数用于计算字符串的字节长度,区别于CHAR_LENGTH()的字符长度,适用于多字节字符集(如UTF-8)的数据验证... 目录1. LENGTH()函数的基本语法2. LENGTH()函数的返回值2.1 示例1:计算字符串

zookeeper端口说明及介绍

《zookeeper端口说明及介绍》:本文主要介绍zookeeper端口说明,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、zookeeper有三个端口(可以修改)aVNMqvZ二、3个端口的作用三、部署时注意总China编程结一、zookeeper有三个端口(可以

Java中的数组与集合基本用法详解

《Java中的数组与集合基本用法详解》本文介绍了Java数组和集合框架的基础知识,数组部分涵盖了一维、二维及多维数组的声明、初始化、访问与遍历方法,以及Arrays类的常用操作,对Java数组与集合相... 目录一、Java数组基础1.1 数组结构概述1.2 一维数组1.2.1 声明与初始化1.2.2 访问

MySQL 中的 CAST 函数详解及常见用法

《MySQL中的CAST函数详解及常见用法》CAST函数是MySQL中用于数据类型转换的重要函数,它允许你将一个值从一种数据类型转换为另一种数据类型,本文给大家介绍MySQL中的CAST... 目录mysql 中的 CAST 函数详解一、基本语法二、支持的数据类型三、常见用法示例1. 字符串转数字2. 数字

Python中你不知道的gzip高级用法分享

《Python中你不知道的gzip高级用法分享》在当今大数据时代,数据存储和传输成本已成为每个开发者必须考虑的问题,Python内置的gzip模块提供了一种简单高效的解决方案,下面小编就来和大家详细讲... 目录前言:为什么数据压缩如此重要1. gzip 模块基础介绍2. 基本压缩与解压缩操作2.1 压缩文

解读GC日志中的各项指标用法

《解读GC日志中的各项指标用法》:本文主要介绍GC日志中的各项指标用法,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、基础 GC 日志格式(以 G1 为例)1. Minor GC 日志2. Full GC 日志二、关键指标解析1. GC 类型与触发原因2. 堆

Python中win32包的安装及常见用途介绍

《Python中win32包的安装及常见用途介绍》在Windows环境下,PythonWin32模块通常随Python安装包一起安装,:本文主要介绍Python中win32包的安装及常见用途的相关... 目录前言主要组件安装方法常见用途1. 操作Windows注册表2. 操作Windows服务3. 窗口操作

MySQL数据库中ENUM的用法是什么详解

《MySQL数据库中ENUM的用法是什么详解》ENUM是一个字符串对象,用于指定一组预定义的值,并可在创建表时使用,下面:本文主要介绍MySQL数据库中ENUM的用法是什么的相关资料,文中通过代码... 目录mysql 中 ENUM 的用法一、ENUM 的定义与语法二、ENUM 的特点三、ENUM 的用法1

JavaSE正则表达式用法总结大全

《JavaSE正则表达式用法总结大全》正则表达式就是由一些特定的字符组成,代表的是一个规则,:本文主要介绍JavaSE正则表达式用法的相关资料,文中通过代码介绍的非常详细,需要的朋友可以参考下... 目录常用的正则表达式匹配符正则表China编程达式常用的类Pattern类Matcher类PatternSynta