琐碎的学习——nutch装置进程ITeye - 乐橙lc8

琐碎的学习——nutch装置进程ITeye

2019年03月01日10时45分04秒 | 作者: 飞珍 | 标签: 抓取,网页,包括 | 浏览: 2776

 

Apache Nutch是一个Java完成的开源的web爬虫,经过它咱们能够主动收集网页链接,削减很多的保护作业,例如检测坏链接。对抓取过的网页创立一个复制(Apache Solr的作业)Solr是一个开源全文索引查找结构,经过solr,能够查找nutch抓取的网页。nutch和solr的结合也是很简略直观

 

装置

 下载解压apache-nutch-1.X-bin.zip

 运转bin/nutch看到Usage: nutch COMMAND

 

 bin/nutch crawl urls -dir crawl -depth 3 -topN 5
 -dir 寄存crawl的文件夹
 -threads 并发抓取网页的线程数目
 -depth 从root page链接深度
 -topN 每一层抓取的网页数目

简略的操作过程

 

 bin/nutch crawl urls -solr http://localhost:8983/solr/ -depth 3 -topN 5

 将抓取下来的网页生成索引

 

 Nutch数据由下面几个数据组成

1,crawldb,寄存一切nutch需求抓取和现已抓取的url

2,link数据库,寄存已知的urls之间的链接联系

3,一组segment,每个segment由一组urls组成,包括以下子文件夹

a,crawl_generate 需求抓取的urls

b,crawl_fetch 包括正在抓取url的状况

c,content 包括每个url获取到的文本流信息

d,parse_text 包括每个url解析过的文本

e,parse_data 包括解析到的outlinks以及metadata信息

f,crawl_parse 包括outlink URLS,用于更新crawldb

 

拆分为下面几个过程

 

A,抓取网页

 

1,seeding the crawldb with a list of URLS

a,从DMOZ数据库中获取 (见手册)

b,从一个初始seed list获取 bin/nutch inject crawl/crawldb urls

修改conf/nutch-site.xml

 

 configuration 
 property 
 name http.agent.name /name 
 value My Nutch Spider /value 
 /property 
 /configuration 

 

 mkdir -p urls
 cd urls
 touch seed.txt
 vi seed.txt
 (ie: http://nutch.apache.org/)

 

2,fetching

从crawl/crawldb中创立需求抓取的list 

 

 bin/nutch generate crawl/crawldb crawl/segments

(生成一个以创立时刻为称号的文件夹)

 

 s1=`ls -d crawl/segments/2* | tail -1`
 echo $s1 // "crawl/segments/20130105111821"
 bin/nutch fetch $s1
 bin/nutch parse $s1

然后用抓到的数据更新crawldb

 

 bin/nutch updatedb crawl/crawldb $1

这时crawldb就包括了初始设定的url和后来发现的一些url

 

 bin/nutch generate crawl/crawldb crawl/segments -topN 1000

这样,就抓去了1000个网页,然后来索引它们

 

3,invertlinks(回转链接)

 

 bin/nutch invertlinks crawl/linkdb -dir crawl/segments

 

B,建立solr用于查找

 

下载apache-solr-3.x.x.zip解压 

cd example

java -jar start.jar

 

查看下面两个链接能否翻开

http://localhost:8983/solr/admin/

http://localhost:8983/solr/admin/stats.jsp

 

C,结合solr和nutch

cp apache-nutch-1.6/conf/schema.xml apache-solr-3.6.0/example/solr/conf/

 java -jar start.jar
 //索引
 bin/nutch solrindex http://127.0.0.1:8983/solr/ crawl/crawldb -linkdb crawl/linkdb crawl/segments/*

然后能够拜访上面的两个网页进行查找了

版权声明
本文来源于网络,版权归原作者所有,其内容与观点不代表乐橙lc8立场。转载文章仅为传播更有价值的信息,如采编人员采编有误或者版权原因,请与我们联系,我们核实后立即修改或删除。

猜您喜欢的文章