（四）—Nutch crawl命令

Crawl为Nutch提供的用于一站式抓取的命令，用户只需要执行一条命令就可以完成抓取的全过程。

进入Nutch的主目录，今后我们大部分执行命令的操作都是在Nutch主目录完成的，而不是在Nutch的bin目录里，因为这样可以更方便地执行一些复杂的命令。查看一站式抓取命令：

bin/crawl

查看nutch命令：

bin/nutch

输入以上两个命令显示了它们各自的使用方法，后文会详细讲解一部分常用的命令。

查看crawl的使用方法：

bin/crawl
Usage: crawl [-i|--index] [-D "key=value"] <Seed Dir> <Crawl Dir> <Num Rounds>
-i|--indexIndexes crawl results into a configured indexer
-DA Java property to pass to Nutch calls
Seed DirDirectory in which to look for a seeds file
Crawl DirDirectory where the crawl/link/segments dirs are saved
Num RoundsThe number of rounds to run this crawl for

-i|index用于告知nutch将抓取的结果添加到配置的索引器中。

-D用于配置传递给Nutch调用的参数，我们可以将索引器配置到这里。

Seed Dir种子文件目录，用于存放种子URL，即爬虫初始抓取的URL。

Crawl Dir抓取数据的存放路径。

Num Rounds循环抓取次数

使用示例：

进入Nutch的runtime/local目录，新建一个urls文件夹：

cd apache-nutch-1.10/runtime/local
mkdir urls

在urls文件夹中新建一个存放url的种子文件：

touch urls/seed.txt

向urls/seed.txt添加初始抓取的URL：

echo http://www.163.com >> urls/seed.txt

开始抓取网页（这里需确保Solr已经启动，否则不能正常在Solr中建立索引，安装和配置参考Nutch 1.10入门教程（三）——Solr安装与配置）：

bin/crawl -i -D solr.server.url=http://localhost:8983/solr/ urls/ TestCrawl/  2

这条命令中，-i告知爬虫将抓取的内容添加到给定的索引中，solr.server.url=http://localhost:8983/solr/是Solr索引器的地址，urls/为种子URL文件路径，TestCrawl为Nutch用于存储抓取数据的文件夹（包含URL、抓取的内容等数据），这里的参数2表示循环抓取两次。

通过执行上面一条命令，就可以开始抓取网页了。

在浏览器中输入http://:8983/solr，选择collection1，就可以在里面通过关键字搜索到已经建立索引的内容。这里需要注意的是，爬虫并没有将指定URL的全部页面抓取下来，查看抓取情况的具体方法请参考后续教程。

w3cschool 编程狮，随时随地学编程

（四）—Nutch crawl命令