豆瓣的robots内容分析

2024-04-28 22:32
文章标签 robots 豆瓣 内容分析

本文主要是介绍豆瓣的robots内容分析,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

豆瓣的robots内容如下:
========================================================
User-agent: *
Disallow: /subject_search
Disallow: /amazon_search
Sitemap: http://www.douban.com/sitemap_index.xml
Sitemap: http://www.douban.com/sitemap_updated_index.xml

User-agent: Slurp
User-agent: Sosospider
Crawl-delay: 5
Visit-time: 0100-1300
Request-rate: 40/1m 0100 - 0759
Request-rate: 12/1m 0800 - 1300

========================================================

下面来解释下含义:

robots.txt文件中各项目的格式为: :
常用的field有Allow, Disallow, Request-rate, Visit-time, User-agent, Robot-version等.robots.txt文件中的注释以'#'开始.可以为独立的一行,也可以一行的后面部分.下面对每一个field,也叫directive进行一一介绍:

1. User-agent: The value of this field is the name of the robot the record is describing access policy for.
例子:User-agent: *
在这里*代表,any robot that has not matched any of the other records

2. Disallow: 指定不能访问我URL
例子: Disallow: /foo.html #foo.html不能访问
Disallow: #该目录下所有URL都可访问
Disallow: / #该目录下所有URL都不可以访问

3. Allow: 用来指定能访问的URL, 这个在当指定所有URL为不可访问,然后可以用这个排除特殊的一些. 这时候比较方便.
例子: Allow: / #允许访问所有URL

>>>> 一般的网站基本用到这些,下面用的就不多了,所以好多人看不懂,一般大型网站用的比较多,大家可以学习下。

4. Robot-version: 用来指定robot协议的版本号
例子: Robot-version: Version 2.0

5.Crawl-delay:雅虎YST一个特定的扩展名,可以通过它对我们的抓取程序设定一个较低的抓取请求频率。您可以加入Crawl-delay:xx指示,其中,“XX”是指在crawler程序两次进入站点时,以秒为单位的最低延时。

6. Visit-time:只有在visit-time指定的时间段里,robot才可以访问指定的URL,否则不可访问.
例子: Visit-time: 0100-1300 #允许在凌晨1:00到下午13:00访问

7. Request-rate: 用来限制URL的读取频率
例子: Request-rate: 40/1m 0100 - 0759 在1:00到07:59之间,以每分钟40次的频率进行访问
Request-rate: 12/1m 0800 - 1300 在8:00到13:00之间,以每分钟12次的频率进行访问

另外还有一点:robots.txt文件里还可以直接包括在sitemap文件的链接。就像这样:
Sitemap: http://czseo.9d88.com/sitemap.xml (此处请填写XML地图的绝对路径,即完整URL,如果按习惯填写Sitemap: /sitemap.xml,提交给Google网站管理员工具后会提示:检测到无效的 Sitemap 网址;语法错误。
XML地图必须在网站根目录下才有效。)

原文地址:http://czseo.9d88.com/1025.html

这篇关于豆瓣的robots内容分析的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/944428

相关文章

Python:豆瓣电影商业数据分析-爬取全数据【附带爬虫豆瓣,数据处理过程,数据分析,可视化,以及完整PPT报告】

**爬取豆瓣电影信息,分析近年电影行业的发展情况** 本文是完整的数据分析展现,代码有完整版,包含豆瓣电影爬取的具体方式【附带爬虫豆瓣,数据处理过程,数据分析,可视化,以及完整PPT报告】   最近MBA在学习《商业数据分析》,大实训作业给了数据要进行数据分析,所以先拿豆瓣电影练练手,网络上爬取豆瓣电影TOP250较多,但对于豆瓣电影全数据的爬取教程很少,所以我自己做一版。 目

爬虫二:获取豆瓣电影Top250(Requests+XPath+CSV)

描述: 在上一篇获取豆瓣图书Top250的基础上,获取豆瓣电影Top250的数据并将结果写入CSV文件中。 代码: # -*- coding: UTF-8 -*-import requestsfrom lxml import etreeimport timeimport csv# 从网页上获取电影数据moviedata = []count = 0for i in range(1

爬虫一:获取豆瓣图书Top250(Requests+XPath)

目的: 获取豆瓣图书Top250的所有书目信息。 豆瓣网址:https://book.douban.com/top250 代码: import requestsfrom lxml import etreeimport timefor i in range(10):url = 'https://book.douban.com/top250?start=' + str(25*i)data

<meta name=“robots“ content=““>介绍

是一个 HTML 元素,用于指示搜索引擎爬虫(如 Googlebot)如何处理网页的索引和抓取。它可以控制搜索引擎对页面的访问和索引行为。 content 属性可以包含以下指令: index:允许搜索引擎索引该页面(默认行为)。noindex:不允许搜索引擎索引该页面。follow:允许搜索引擎跟踪页面上的链接(默认行为)。nofollow:不允许搜索引擎跟踪页面上的链接。 例如: <m

计算机毕设选题推荐-基于python的豆瓣电子图书数据可视化分析

💖🔥作者主页:毕设木哥 精彩专栏推荐订阅:在 下方专栏👇🏻👇🏻👇🏻👇🏻 实战项目 文章目录 实战项目 一、基于python的豆瓣电子图书数据可视化分析-项目介绍二、基于python的豆瓣电子图书数据可视化分析-视频展示三、基于python的豆瓣电子图书数据可视化分析-开发环境四、基于python的豆瓣电子图书数据可视化分析-项目展示五、基于python的豆瓣电子图

豆瓣个人信息的爬取

通过scrapy框架模拟登陆豆瓣并进入个人信息页面 # -*- coding: utf-8 -*-import scrapyfrom scrapy.http import Request,FormRequestimport urllib.requestclass DbSpider(scrapy.Spider):name = 'db'allowed_domains = ['douban.co

Python 爬虫爬取豆瓣电影列表信息,爬虫的原理,应用领域介绍学习

1. 什么是Python 爬虫 定义:爬虫是一种自动化程序,能够遍历互联网上的各个网页,并根据预设的规则和算法来解析和收集感兴趣的信息。这些信息可以包括网页的文本内容、图片、链接、视频等。 功能:爬虫可以自动化执行重复、繁琐的任务,如定时抓取和更新网站上的信息、自动化监测网站的性能和稳定性、自动化测试网站功能等,从而提高工作效率和质量。 2.爬取原理 选择起始网页:爬虫首先选择

python手写了个简易的豆瓣影评爬虫

使用python手写了个简易的豆瓣影评爬虫代码。 __author__ = 'wsx'import timeimport requestsfrom bs4 import BeautifulSoupimport osimport reimport uuiddef clean_windows_filename(string_file_name):invalid_chars = r'[\\/

python定时器爬取豆瓣音乐Top榜歌名

python定时器爬取豆瓣音乐Top榜歌名 作者:vpoet 日期:大约在夏季 注:这些小demo都是前段时间为了学python写的,现在贴出来纯粹是为了和大家分享一下 #coding=utf-8import urllib import urllib2 import re import time def SaveTop20Music(currtime):r

seo robots.txt文件

robots.txt是一个纯文本文件,robots.txt是一个协议,而不是一个命令。robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。 robots.txt必须放在一个站点的根目录下,而且文件名必须全部小写。 robots.txt格式:<field>:<optionalspace><value><optiona