转：cygwin简单应用及Nutch之Crawler工作流程

本文主要是介绍转：cygwin简单应用及Nutch之Crawler工作流程，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

cygwin简单应用：

cygwin home 目录：

ls / -- 根目录

ls /cygdrive -- 查看本地操作系统的盘符，如c盘、d盘

pwd -- 当前位置路径

/home/zf -- 对应目录在 \cygwin\home\zf，cygwin的安装路径下面

java -version

which java --查看java安装路径

/cygdrive/d/java/jdk1.6.0_32/bin/java

echo $JAVA_HOME

在用命令设置环境变量是，需要注意：

windows中的路径分隔符为：\ 而在Unix 中的却为/

另外，在Unix中的路径不能含有空格。如果有空格，需要使用单引号。

JAVA_HOME='C:/Program Files/Java/jdk1.6'

Setup JAVA_HOME ifyou are seeing JAVA_HOME notset.其中Progra~1为中间有空格的写法
exportJAVA_HOME=D:/Progra~1/Java/jdk1.7.0_45

//切换到nutch目录
cd /cygdrive/E/javaStudy/爬虫工具/资源包/apache-nutch-1.7-bin/bin

mkdir urls

echo http://www.163.com > urls/url.txt

cat urls/url.txt

bin/nutch crawl urls -dir data -threads 5 -depth 2

Nutch之Crawler工作流程

在Nutch中，Crawler操作的实现是通过一系列子操作的实现来完成的。这些子操作Nutch都提供了子命令行可以单独进行调用。下面就是这些子操作的功能描述以及命令行，命令行在括号中。
1) 建立初始 URL集
2) 将 URL 集注入 crawldb数据库---inject
3) 根据 crawldb数据库创建抓取列表---generate
4) 执行抓取，获取网页信息---fetch
5) 更新数据库，把获取到的页面信息存入数据库中---updatedb
6) 重复进行 3～5的步骤，直到预先设定的抓取深度。---这个循环过程被称为“产生/抓取/更新”循环

7) 根据sengments 的内容更新linkdb数据库---invertlinks
8) 建立索引---index

9) 在索引中丢弃有重复内容的网页和重复的URLs (dedup).
10) 将segments中的索引进行合并生成用于检索的最终index(merge).

11) 用户通过用户接口进行查询操作
12) 将用户查询转化为lucene 查询
13) 返回结果

其中，1~6属于爬虫部分；7~10 属于索引部分；11~13属于查询部分。

在创建一个WebDB之后，“产生/抓取/更新”循环(步骤3－6)根据一些种子URLs开始启动。当这个循环彻底结束，Crawler根据抓取中生成的segments创建索引（步骤7－10）。在进行重复URLs清除（步骤9）之前，每个segment的索引都是独立的（步骤8）。最终，各个独立的segment索引被合并为一个最终的索引index（步骤10）。
　　其中有一个细节问题，Dedup操作主要用于清除segment索引中的重复URLs，但是我们知道，在WebDB中是不允许重复的URL存在的，那么为什么这里还要进行清除呢？原因在于抓取的更新。比方说一个月之前你抓取过这些网页，一个月后为了更新进行了重新抓取，那么旧的segment在没有删除之前仍然起作用，这个时候就需要在新旧segment之间进行除重。

Nutch本身的命令：

抓取：bin/nutch crawl urls -dir data -threads 5 -depth

读取crawlDB:bin/nutch readdb data/crawldb -stats

这篇关于转：cygwin简单应用及Nutch之Crawler工作流程的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！