Nutch的Hadoop方式爬取效率优化

2024-03-18 07:18

本文主要是介绍Nutch的Hadoop方式爬取效率优化,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

下面这些是潜在的影响爬取效率的内容(官方资料翻译):

1)DNS设置 
2)你的爬虫数量,太多或太少
3)带宽限制
4)每一主机的线程数
5)要抓取的urls的分配不均匀
6) robots.txt中的高爬取延时(通常和urls的分配不均匀同时出现)
7)有很多比较慢的网页(通常和分配不均匀同时出现)
8)要下载太多的内容(PDF,大的html页面,通常和分配不均匀同时出现)
9)其它

那现在怎样改善它们?

1)在每一个本地的爬虫机器上设置DNS,如果是多个爬取机器和一个单独的DNS中心这种情况,那么它就会像有DOS攻击在DNS服务器上那样,使整个系统变慢。我们经常设置两层,首先命中本地DNS缓存,然后就是大的DNS缓存,就像OpenDNS或Verizon。
2)这将是map任务数乘以fetcher.threads.fetch属性值的数量。所以10个map任务*20个线程=一次200个爬取列表。太多的话会超过你系统的负担,太少的话就会使一些机器闲置。你需要认真考虑在你的环境下如何设置这些属性。
3)带宽限制,用ntop,ganglia和其它监控软件来测定你使用了多少的带宽。计算输入和输出的带宽。可以做一个简单的测试,用抓取网络中一台不用作爬虫的服务器中,如果它与其中一台爬虫机器连接时或当那台机器抓取时从中下载信息时非常慢,这时你就可以加大带宽。如果你像我后来说的那样设置http的超时时间并且增加了你的带宽,你会开始看到很多http超时的错误。
4)urls分配的不均匀很有可能是限制性能的一个最大的因素。如果一个线程正在处理一个网站并且那个网站还有很多url等待抓取,那么其它线程就会闲置直到那个线程完成抓取。一些解决方法是,使用fetcher.server.delay来缩短网页抓取之间的时间间隔,和使用fetcher.threads.per.host来增加同一网站抓取的线程数(这仍然在同一个map任务中,因此也是在同一个JVM中的子任务中处理)。如果把这些属性都设置为大于0,你也可以设置fetcher.server.min.delay属性大于0来设置处理的最小和最大的界限。
5)在一个网站上抓取大量的网页或在少量网站上抓取大量的网页将显著地降低抓取的速度。对于全网爬取,你希望用分布式环境来使所有抓取线程活动。设置generate.max.per.host大于0将限制在同一网站/域名抓取网页的数量
6)爬取延迟。大多数网站不使用这些设置只有少数使用(一些恶意的网站)。我见过爬取延迟每秒最长延迟2天的.fetcher.max.crawl.delay属性将忽略爬取延迟大于x的页面。我经常把它设置成10秒,默认是30秒。尽管设置为10秒,如果你在某个网站上有大量的页面要爬取,但你只能每10秒爬取一个页面,这样也是很慢的。另一方面,把它的值设置过小将忽略该页面并且不抓取这些网页。
7)有时,网页刚好很慢。设置http.timeout一个低点的值就有助于这种情况。它的默认值为10秒。如果你不在意并想所有网页都尽可能的快,设置得小点。一些网站。例如digg,会在网站中限制你的带宽并且只允许在某个时间段内存在x个到你机器的连接。所以即使你只在一个网站中爬取50个网页(我仍然认为太多了)。这样将在每一页面中等待10秒。ftp.timeout也可以用来设置抓取ftp的内容时的时间间隔。
8)大量的内容意味着要降低抓取的速度。特别是下载PDF或其它非html的文件时。为了避免下载非html的内容,你可以使用url过滤器。我更喜欢prefix和suffix过滤器。http.content.limit和ftp.content.limit属性可以限制一个文档中下载数据的多少。
9)其它可能导致抓取变慢的因素:
一台机器最大可打开的socket或文件的多少。你可能会开始看到IO错误或不能打开socket的错误。低效的路由。坏的或家里的路由不能控制同一时间大量连接的建立。一个错误的路由设置也可能导致问题但这些问题通常很难发现。如果你认为是这个问题,可以用网络跟踪和映射工具来查找。反向的路由则可能是你网络供应商的问题。坏的网卡。我曾经见过一些网卡突然达到了某个带宽值。这个问题在使用新的网卡时更加普遍。这通常不是我首先想到的但是通常是可能会出现的。可以使用tcpdump和网络监控

本次优化方向:

A,1)3)为硬件,设置好了以后改变不大。暂不考虑。
B,5)generate.max.per.host暂设置为0。暂不考虑。
C,8)本次爬虫设置只爬取网页内容,不爬媒体文件。
D,2)4)6)7)9)为优化目标


Hadoop配置:

三台:主机内存8G,2台slave内存20G,主从内存配置不合理有一定原因,这里就不再赘述。以后也是一个优化方向

网络带宽:100M

优化前的准备工作:

没有优化之前,种子数量在10条左右的时候,单机版和Hadoop版的爬取效率大约都在2条/秒(包括建立索引)。
优化了Nutch索引,stored和indexed,索引不需要存储的尽量不存储,不需要索引的尽量不索引。并且去掉不必要的索引项目。当种子数增加到40条左右的时候,Hadoop版的爬取效率大约在3.5条/秒。由此确定了种子数量对爬取有影响的优化方向。

参照hadoop的优化方针,做了如下优化:

1,优化系统参数 readahead buffer
blockdev --report
blockdev --setra 1024 /dev/sda
2,优化hadoop参数
hdfs-default
 dfs.namenode.handler.count:20
 dfs.datanode.handler.count:5
 dfs.replication:3
mapred-default.xml
 mapreduce.tasktracker.http.threads:50
 io.sort.factor:20
 mapred.child.java.opts:-Xmx400m
 mapreduce.task.io.sort.mb:200
 mapreduce.map.sort.spill.percent:0.8
 mapreduce.map.output.compress:true
mapreduce.map.output.compress.codec:org.apache.hadoop.io.compress.DefaultCodec     com.hadoop.compression.lzo.LzoCodec为最优
mapreduce.reduce.shuffle.parallelcopies:10

优化开始:

2014/7/9 上午

优化内容

增大种子数:选取的3000左右的有效的国外网站。

yarn-site
<property>
<name>yarn.scheduler.minimum-allocation-mb</name>
<value>2048</value>
</property>
<property>
<name>yarn.scheduler.maximum-allocation-mb</name>
<value>3072</value>
</property>
mapred-site
<property>
<name>mapreduce.map.memory.mb</name>
<value>1536</value>
</property>
<property>
<name>mapreduce.reduce.memory.mb</name>
<value>2560</value>
</property>
<property>
<name>mapreduce.map.java.opts</name>
<value>-Xms512m -Xmx1024m</value>
</property>
<property>
<name>mapreduce.reduce.java.opts</name>
<value>-Xms1024m -Xmx2048m</value>
</property>
slave
yarn-site
<property>
<name>yarn.scheduler.minimum-allocation-mb</name>
<value>3072</value>
</property>
<property>
<name>yarn.scheduler.maximum-allocation-mb</name>
<value>6144</value>
</property>
mapred-site
<property>
<name>mapreduce.map.memory.mb</name>
<value>4096</value>
</property>
<property>
<name>mapreduce.reduce.memory.mb</name>
<value>8192</value>
</property>
<property>
<name>mapreduce.map.java.opts</name>
<value>-Xms2048m -Xmx3072m</value>
</property>
<property>
<name>mapreduce.reduce.java.opts</name>
<value>-Xms5120m -Xmx6144m</value>
</property>

结果:

共爬取并建立了91986条solr索引,共耗时22235秒。最终效率:4.14条/秒。

4.136991



2923 2923 11:06:05 11:20:51 0:14
36538 33615 11:20:51 13:13:38 1:52
68255 31717 13:13:38 15:16:42 2:03
91986 23731 15:16:42 17:16:40 1:59

2014/7/9 下午

优化内容:

nutch-site

<name>fetcher.threads.per.host</name> 5
<name>fetcher.threads.fetch</name>20

结果:


    数
效率 5.38条/秒 全体 Nutch Index








总条数 每回条数 开始 终了 耗时 速度 开始 终了 耗时 速度 开始 终了 耗时 速度
1 2923 2923 18:22:04 18:48:55 1611 1.81 18:22:04 18:35:13 789 3.70 18:37:05 18:48:55 710 4.12
2 36538 33615 18:49:41 20:59:04 7763 4.33 18:49:41 20:20:31 5450 6.17 20:22:18 20:59:04 2206 15.24
3 68255 31717 21:00:11 22:57:35 7044 4.50 21:00:11 22:26:21 5170 6.13 22:28:08 22:57:35 1767 17.95
4 91986 23731 22:59:19 0:58:52 7173 3.31 22:59:19 0:28:49 5370 4.42 0:31:03 0:58:52 1669 14.22
5 115646 23660 1:00:49 2:49:14 6505 3.64 1:00:49 2:19:21 4712 5.02 2:21:19 2:49:14 1675 14.13

结论:

速度从4.14-〉5.38,提升了29.95%。从这一点来看Nutch的fetch线程数目对爬取效率有一定影响。


2014/7/10

优化内容:

根据7/9日的方向,增加fetch线程数。

nutch-site
<property>
  <name>fetcher.threads.fetch</name>
  <value>100</value>
</property>
<property>
 <name>plugin.includes</name>
    <value>protocol-http|urlfilter-regex|parse-html|index-(basic|customized)|indexer-solr|scoring-opic|urlnormalizer-(pass|regex|basic)</value>
</property>
<property>
  <name>indexer.skip.notmodified</name>
  <value>true</value>
  <description>Whether the indexer will skip records with a db_notmodified status.
  </description>
</property>

结果:


    数
效率 6.22条/秒 全体 Nutch Index








总条数 每回条数 开始 终了 耗时 速度 开始 终了 耗时 速度 开始 终了 耗时 速度
1 3014 3014 15:01:01 15:26:07 1506 2.00 15:01:01 15:13:30 749 4.02 15:15:13 15:26:07 654 4.61
2 39069 36055 15:26:54 17:34:55 7681 4.69 15:26:54 17:01:35 5681 6.35 17:03:25 17:34:55 1890 19.08
3 73156 34087 17:35:57 19:33:36 7059 4.83 17:35:57 18:59:06 4989 6.83 19:01:08 19:33:36 1948 17.50
4 103994 30838 19:34:55 21:46:40 7905 3.90 19:34:55 21:03:07 5292 5.83 21:05:31 21:46:40 2469 12.49

结论:

速度从5.38-〉6.22,提升了15.61%。fetch线程数目增加,优化效果在减小。


2014/7/11上午

改变优化方向:

考虑到网速的问题,放弃了用之前有3000左右的有效网站地址的国外新闻网站。改用下列网址http://bj.elanw.com/,由于初始只有一个地址。防止爬取深度过深,先爬去两层然后作为基础,再作爬取。再次爬取的层数为3层。

结果:


    数
效率 11.61条/秒 全体 Nutch Index








总条数 每回条数 开始 终了 耗时 速度 开始 终了 耗时 速度 开始 终了 耗时 速度
1 2830 2830 11:13:05 11:35:52 1367 2.07 11:13:05 11:26:40 815 3.47 11:28:20 11:35:52 452 6.26
2 43885 41055 11:36:51 13:07:01 5410 7.59 11:36:51 12:29:47 3176 12.93 12:31:55 13:07:01 2106 19.49
3 83074 39189 13:08:11 14:27:47 4776 8.21 13:08:11 14:00:53 3162 12.39 14:02:53 14:27:47 1494 26.23

结论:

速度从6.22-〉11.61,提升了86.66%。可见访问网站的速度对爬虫有很大影响。


2014/7/11下午

优化方向:

统计了一下上午爬虫每个阶段的详细数据,结果如下:

Inject Generate Fetch Parse CrawlDB Link inversion Dedup Index Cleanup index
11:13:05 11:14:54 11:16:22 11:21:51 11:23:25 11:24:34 11:26:40 11:28:20 11:35:52
0:01:49 0:01:28 0:05:29 0:01:34 0:01:09 0:02:06 0:01:40 0:07:32 0:00:59
11:36:51 11:36:51 11:38:38 12:11:34 12:21:58 12:23:39 12:29:47 12:31:55 13:07:01

0:01:47 0:32:56 0:10:24 0:01:41 0:06:08 0:02:08 0:35:06 0:01:10
13:08:11 13:08:11 13:09:56 13:41:31 13:50:56 13:52:27 14:00:53 14:02:53 14:27:47

0:01:45 0:31:35 0:09:25 0:01:31 0:08:26 0:02:00 0:24:54

从结果上看:fetch和index所耗时间占每次爬取时间的80%左右,所以重点考虑fetch的参数优化。

另外,察看资料发现之前Nutch的配置有个优化项目设置不对,Nutch1.8中不是fetcher.threads.per.host而是fetcher.threads.per.queue。

优化内容:

<property>
  <name>fetcher.threads.per.queue</name>
  <value>5</value>
</property>
<property>
  <name>fetcher.queue.depth.multiplier</name>
  <value>100</value>
</property>
<property>
  <name>fetcher.server.delay</name>
  <value>2.0</value>
</property>
<property>
  <name>fetcher.server.min.delay</name>
  <value>1.0</value>
</property>

结果:


    数
效率 13.87条/秒 全体 Nutch Index








总条数 每回条数 开始 终了 耗时 速度 开始 终了 耗时 速度 开始 终了 耗时 速度
1 2238 2238 14:38:05 14:56:37 1112 2.01 14:38:05 14:48:07 602 3.72 14:49:43 14:56:37 414 5.41
2 43704 41466 14:57:25 16:21:00 5015 8.27 14:57:25 15:43:12 2747 15.10 15:44:52 16:21:00 2168 19.13
3 82269 38565 16:21:25 17:34:21 4376 8.81 16:21:25 17:04:29 2584 14.92 17:06:24 17:34:21 1677 23.00

结论:

速度从11.61-〉13.87,提升了19.47%。可见fetch的参数优化对整体爬虫效率有不小的影响。


2014/7/11晚上

优化内容:fetch参数

<property>
  <name>fetcher.threads.per.queue</name>
  <value>10</value>
</property>
<property>
  <name>fetcher.queue.depth.multiplier</name>
  <value>200</value>
</property>
<property>
  <name>fetcher.threads.fetch</name>
  <value>200</value>
</property>

结果:


    数
效率 14.52条/秒 全体 Nutch Index








总条数 每回条数 开始 终了 耗时 速度 开始 终了 耗时 速度 开始 终了 耗时 速度
1 2224 2224 18:07:04 18:23:59 1015 2.19 18:07:04 18:16:33 569 3.91 18:18:07 18:23:59 352 6.32
2 42079 39855 18:24:46 19:35:45 4259 9.36 18:24:46 19:07:15 2549 15.64 19:09:02 19:35:45 1603 24.86
3 83466 41387 19:36:47 20:46:35 4188 9.88 19:36:47 20:20:37 2630 15.74 20:22:24 20:46:35 1451 28.52

结论:

速度从13.87-〉14.52,提升了4.69%。可见fetch的参数优化对整体爬虫效率有影响,但效果已经减小


总结:

通过这几天的优化,使得爬虫效率从4.14条/秒提升到了14.52条/秒,速度提升250.72%

1,Nutch爬虫整体过程中,fetch和index创建占据着整体爬取时间的80%左右,fetch:55%,index:35%

   fetch方面主要考虑参数优化,nutch1.8种有10多个参数,上述已经做了部分优化。
    index创建的优化主要考虑做solr集群,现在还是单机版。是今后的优化方向

2,Hadoop的相关优化,要事先做完,特别是虚拟内存和物理内存的优化,否则在优化1时会出现内存溢出,IO异常等错误

3,爬取网站的访问速度对爬虫效率有很大影响,这个很容易理解

4,从每次爬虫的速度来看,种子数量对爬虫速度有很大的影响爬虫官方目标是每个月几十亿,暂算30亿的话,每天1亿网页爬取量来算,每秒要爬取1100多网页。如果其他因素都很理想得状态下,种子数量的多少对爬虫速度有非常大的影响实际实践效率数据:每天200万网页,每秒20多条网页。

这篇关于Nutch的Hadoop方式爬取效率优化的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/821583

相关文章

Jsoncpp的安装与使用方式

《Jsoncpp的安装与使用方式》JsonCpp是一个用于解析和生成JSON数据的C++库,它支持解析JSON文件或字符串到C++对象,以及将C++对象序列化回JSON格式,安装JsonCpp可以通过... 目录安装jsoncppJsoncpp的使用Value类构造函数检测保存的数据类型提取数据对json数

Redis事务与数据持久化方式

《Redis事务与数据持久化方式》该文档主要介绍了Redis事务和持久化机制,事务通过将多个命令打包执行,而持久化则通过快照(RDB)和追加式文件(AOF)两种方式将内存数据保存到磁盘,以防止数据丢失... 目录一、Redis 事务1.1 事务本质1.2 数据库事务与redis事务1.2.1 数据库事务1.

Linux磁盘分区、格式化和挂载方式

《Linux磁盘分区、格式化和挂载方式》本文详细介绍了Linux系统中磁盘分区、格式化和挂载的基本操作步骤和命令,包括MBR和GPT分区表的区别、fdisk和gdisk命令的使用、常见的文件系统格式以... 目录一、磁盘分区表分类二、fdisk命令创建分区1、交互式的命令2、分区主分区3、创建扩展分区,然后

Linux中chmod权限设置方式

《Linux中chmod权限设置方式》本文介绍了Linux系统中文件和目录权限的设置方法,包括chmod、chown和chgrp命令的使用,以及权限模式和符号模式的详细说明,通过这些命令,用户可以灵活... 目录设置基本权限命令:chmod1、权限介绍2、chmod命令常见用法和示例3、文件权限详解4、ch

Java中的密码加密方式

《Java中的密码加密方式》文章介绍了Java中使用MD5算法对密码进行加密的方法,以及如何通过加盐和多重加密来提高密码的安全性,MD5是一种不可逆的哈希算法,适合用于存储密码,因为其输出的摘要长度固... 目录Java的密码加密方式密码加密一般的应用方式是总结Java的密码加密方式密码加密【这里采用的

Java中ArrayList的8种浅拷贝方式示例代码

《Java中ArrayList的8种浅拷贝方式示例代码》:本文主要介绍Java中ArrayList的8种浅拷贝方式的相关资料,讲解了Java中ArrayList的浅拷贝概念,并详细分享了八种实现浅... 目录引言什么是浅拷贝?ArrayList 浅拷贝的重要性方法一:使用构造函数方法二:使用 addAll(

Mycat搭建分库分表方式

《Mycat搭建分库分表方式》文章介绍了如何使用分库分表架构来解决单表数据量过大带来的性能和存储容量限制的问题,通过在一对主从复制节点上配置数据源,并使用分片算法将数据分配到不同的数据库表中,可以有效... 目录分库分表解决的问题分库分表架构添加数据验证结果 总结分库分表解决的问题单表数据量过大带来的性能

SpringBoot项目引入token设置方式

《SpringBoot项目引入token设置方式》本文详细介绍了JWT(JSONWebToken)的基本概念、结构、应用场景以及工作原理,通过动手实践,展示了如何在SpringBoot项目中实现JWT... 目录一. 先了解熟悉JWT(jsON Web Token)1. JSON Web Token是什么鬼

在C#中合并和解析相对路径方式

《在C#中合并和解析相对路径方式》Path类提供了几个用于操作文件路径的静态方法,其中包括Combine方法和GetFullPath方法,Combine方法将两个路径合并在一起,但不会解析包含相对元素... 目录C#合并和解析相对路径System.IO.Path类幸运的是总结C#合并和解析相对路径对于 C

C语言线程池的常见实现方式详解

《C语言线程池的常见实现方式详解》本文介绍了如何使用C语言实现一个基本的线程池,线程池的实现包括工作线程、任务队列、任务调度、线程池的初始化、任务添加、销毁等步骤,感兴趣的朋友跟随小编一起看看吧... 目录1. 线程池的基本结构2. 线程池的实现步骤3. 线程池的核心数据结构4. 线程池的详细实现4.1 初