robots.txt 文件规则

2024-02-24 02:04
文章标签 规则 txt robots

本文主要是介绍robots.txt 文件规则,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

robots.txt 是一种用于网站根目录的文本文件,其主要目的在于指示网络爬虫(web crawlers)和其他网页机器人(bots)哪些页面可以抓取,以及哪些页面不应该被抓取。可以看作是网站和搜索引擎机器人之间的一个协议。
robots.txt 文件支持一系列规则,主要包括“User-agent”, “Disallow”, “Allow”和“Sitemap”。以下是这些规则的基础用法:

1. User-agent: 指定了这条规则对哪些机器人生效。

"*"代表这个规则对所有的机器人都有效。例如:

User-agent: *

2. Disallow: 指定机器人不允许访问的页面或目录。

   例如,禁止所有机器人访问整个网站:  

   User-agent: *Disallow: /

   或只禁止访问某个特定的目录:  

   User-agent: *Disallow: /private/

3. Allow: 与`Disallow`相反,指定机器人允许访问的页面。

   通常这与`Disallow`一起使用,来覆盖更广范的`Disallow`规则。
   例如:  

   User-agent: *Disallow: /private/Allow: /private/public/

4. Sitemap: 指定了网站的sitemap位置。

虽然这不是限制搜索引擎bot的命令,但它提供了网站地图的位置给bot,有助于搜索引擎更好地索引网站。
   例如:  

   Sitemap: http://www.example.com/sitemap.xml

生成robots.txt时要谨慎,错误的规则可能会导致搜索引擎未能爬取到希望被索引的网页,或者索引到不希望公开的页面。

5. 一些常见的注意事项。

包括:
- 确保允许搜索引擎机器人访问希望在搜索结果中展示的公开页面。
- 使用`Disallow`可以阻止一些内容被搜寻,但它并不是一个安全措施,不应该用来隐藏敏感信息。
- 一些搜索引擎机器人可能不遵循`robots.txt`的规则,尤其是一些恶意爬虫。
- robots.txt文件需要放置在网站的根目录下,比如`http://www.example.com/robots.txt`。
- 一旦更改了`robots.txt`,这些更改可能需要一些时间才能被搜索引擎发现并应用。


存在一个网络爬虫联盟标准(Robots Exclusion Protocol),许多搜索引擎如Google, Bing等都支持这个标准。不过,要注意的是,遵守该文件的内容完全是基于爬虫的自愿,这意味着这个文件不能强制执行任何规则。因此,如果需要确保网站的某些部分不被访问,应该使用更强的安全措施,如身份验证或IP阻止。

这篇关于robots.txt 文件规则的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/740612

相关文章

Python按条件批量删除TXT文件行工具

《Python按条件批量删除TXT文件行工具》这篇文章主要为大家详细介绍了Python如何实现按条件批量删除TXT文件中行的工具,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录1.简介2.运行效果3.相关源码1.简介一个由python编写android的可根据TXT文件按条件批

Adblock Plus官方规则Easylist China说明与反馈贴(2015.12.15)

-------------------------------特别说明--------------------------------------- 视频广告问题:因Adblock Plus的局限,存在以下现象,优酷、搜狐、17173黑屏并倒数;乐视、爱奇艺播放广告。因为这些视频网站的Flash播放器被植入了检测代码,而Adblock Plus无法修改播放器。 如需同时使用ads

Python脚本:TXT文档行数统计

count = 0 #计数变量file_dirs = input('请输入您要统计的文件根路径:')filename = open(file_dirs,'r') #以只读方式打开文件file_contents = filename.read() #读取文档内容到file_contentsfor file_content in file_contents:

mysql中导入txt文件数据的操作指令

1 表tt的格式:    CREATE TABLE `tt` (   `ind` int NOT NULL auto_increment,   `name` char(100) default NULL,   PRIMARY KEY  (`ind`)  )   2 文件d.txt的内容示例:  1,a  2,b  3,c

关联规则(一)Apriori算法

此篇文章转自 http://blog.sina.com.cn/s/blog_6a17628d0100v83b.html 个人觉得比课本上讲的更通俗易懂! 1.  挖掘关联规则 1.1   什么是关联规则 一言蔽之,关联规则是形如X→Y的蕴涵式,表示通过X可以推导“得到”Y,其中X和Y分别称为关联规则的先导(antecedent或left-hand-side, LHS)和后

电子电气架构---私有总线通信和诊断规则

电子电气架构—私有总线通信和诊断规则 我是穿拖鞋的汉子,魔都中坚持长期主义的汽车电子工程师。 老规矩,分享一段喜欢的文字,避免自己成为高知识低文化的工程师: 屏蔽力是信息过载时代一个人的特殊竞争力,任何消耗你的人和事,多看一眼都是你的不对。非必要不费力证明自己,无利益不试图说服别人,是精神上的节能减排。 无人问津也好,技不如人也罢,你都要试着安静下来,去做自己该做的事.而不是让内心的烦躁、

Python中的单下划线和双下划线使用规则

引言 Python 遵循一些关键的命名规则,这些规则涉及到使用单个或双下划线。通过这些规则,你可以在应用程序接口(API)中区分可访问的和不可访问的标识符,编写适用于继承的稳健类,以及防止命名冲突等。 遵守这些规则,你的代码将显得更贴近 Python 的风格,并且在其他 Python 程序员看来更加统一。这项技能在你为其他开发者编写代码时尤为重要。 本文[1]将带你了解: 基于使用下划线

【0324】Postgres内核 Shared Buffer Access Rules (共享缓冲区访问规则)说明

0. 章节内容 1. 共享磁盘缓冲区访问机制 (shared disk buffers) 共享磁盘缓冲区有两套独立的访问控制机制:引用计数(a/k/a pin 计数)和缓冲区内容锁。(实际上,还有第三级访问控制:在访问任何属于某个关系表的页面之前,必须持有该关系表的适当类型的锁。这里不讨论关系级锁。) Pins 在对缓冲区做任何操作之前,必须“对缓冲区pin”(即增加其引用计数, re

[mysql]SQL语言的规则和规范

规则 是什么呢,规则就是我们最基本,每时每刻都要遵守的比如人行道靠右,不能逆行, 规范 呢就是锦上添花,如果你不这么做,是不那么道德,不那么好的,就像小学生见到老师要问好,不问好可以吗,当然也是可以的,但是这样就不那么礼貌了。但是也不会开除你, 规范是建议。规则: USE dbtest2 SELECT * FROM emp 我们之前使用cmd操作的时候,是不是必须要先选择一个数据

【python txt合并】python合并同一个文件夹下所有txt文件

一、需求分析 合并一个文件夹下所有txt文件 二、合并效果 三、python实现代码 # -*- coding:utf-8*-import sysreload(sys)sys.setdefaultencoding('utf-8')import osimport os.pathimport timetime1=time.time()##############