`
zha_zi
  • 浏览: 585405 次
  • 性别: Icon_minigender_1
  • 来自: 西安
社区版块
存档分类
最新评论

如何把nutch导入myeclipse

阅读更多

 

   如何把整个nutch导入myeclipse

1:准备好nutch的源码开放包,我这里使用的nutch-0.9

2:file->new->java project->从已有的项目导入 然后选择你解压过的nutch文件夹

 

这事需要把conf文件夹修改成Default output folder 方法是右键properties -> java build path >source->  output floder 选择conf确定即可,

 

一般确定以后会把conf中以前的文件清空掉,在重新把nutch压缩包里的conf下的所有文件复制到工程的conf下

千万不要把新生成的配置文件删掉

 

3:还需要另外的两个jar文件 把这两个jar添加到构建路径 结束上附件

[WWW] http://nutch.cvs.sourceforge.net/nutch/nutch/src/plugin/parse-mp3/lib/

[WWW] http://nutch.cvs.sourceforge.net/nutch/nutch/src/plugin/parse-rtf/lib/

 

 

  • 配置nutch

  • 为处理方便,直接在nutch工程下创建一个名为url.txt文件,然后在文件里添加要搜索的网址,例如:http://www.sina.com.cn/,注意网址最后的"/"一定要有。前面的"http://"也是必不可少的。

    2.配置crawl-urlfilter.txt

    打开工程conf/crawl-urlfilter.txt文件,找到这两行

    # accept hosts in MY.DOMAIN.NAME

    +^http://([a-z0-9]*\.)*MY.DOMAIN.NAME/

    红色部分是一个正则,改写为如下形式

        +^http://([a-z0-9]*\.)*com.cn/
        +^http://([a-z0-9]*\.)*cn/ 
        +^http://([a-z0-9]*\.)*com/

  • 注意:“+”号前面不要有空格。

  • 3.修改conf\nutch-site.xml为如下内容,否则不会抓取。

    <configuration>

    <property>

         <name>http.agent.name</name>

         <value>*</value>

    </property>

    </configuration>

    在conf/nutch-defaul.xml下,将属性"plugin.folders"的值由“plugins”更改为 "./src/plugin" 如何nutch是1.0的则不用修改

     

     

    run-> open run dialog

    显示一个对话框,projcet 选择你新建的工程

    main class 选择 org.apache.nutch.crawl.Crawl

    点击arguments  在program arguments 

     添加 url.txt -dir crawled -depth 3 -topN 50

     如果是nutch-1.0还需要设置vm arguments(虚拟机)的参数

    设置为 -Xms32m -Xmx800m即可

    urls -dir crawl -depth 3 -topN 50
    ( urls是存放入口地址的文件夹(在工程的根目录建新建一个urls的目录,
    里面新建一个文本文件,也可以没有后缀名,在里面填写url 比如: http://www.163.com/),
    -dir创建一个名为 crawl 的文件夹,里面就是我们抓取回来的数据存放地方 

    -depth 3 采集深度 3层 topN 最大页数

     

 

分享到:
评论
2 楼 zha_zi 2010-11-19  
oolala 写道
好文章,就是卡在conf设置为源目录那里。感谢

呵呵,把nutch导入myecplise确实有一点小麻烦,后边的麻烦更多,web启动爬虫,
更换分词器,坚持一下,找找原因应该可以解决的,我当时用的是nutch1.0 ,可能版本不一样conf或许是有点不一样,反正1.0的用法在0.9上是不可以的
1 楼 oolala 2010-11-08  
好文章,就是卡在conf设置为源目录那里。感谢

相关推荐

Global site tag (gtag.js) - Google Analytics