如何跟换nutch1.0中文分词,我在网上基本把所有的办法都是试了一遍但是没有一个是可行的,真是怀疑这些人是纯转载别人的文章还是自己确实有试过,
这里把步骤详细给大家说一下下边是别人的文章,但是其中跟真实的情况有出入,我这里有所修改
前提nutch-1.0配置正常能正常的爬取
找到 src/java/org/apache/nutch/analysis/NutchAnalysis.jj 文件
line 130:
| <SIGRAM: <CJK> >
change to:
| <SIGRAM: (<CJK>)+ >
run “javacc”
cd nutch-1.0/src/java/org/apache/nutch/analysis
/usr/local/javacc-3.2/bin/javacc NutchAnalysis.jj
3 files will be regenerated:
这里会生成7个文件,这里列举3个
NutchAnalysis.java
NutchAnalysisTokenManager.java
NutchAnalysisConstants.java
把生成的7个文件全部替换/src/java/org/apache/nutch/analysis下的七个文件
其中会抛出一个异常,捕获一下就ok了
中文分析部分(查询和索引):
将analyzer更换为ik中文分析器
a 把 IKAnalyzer3.1.5GA.jar 放到lib文件夹
b org.apache.nutch.analysis.NutchDocumentAnalyzer
修改TokenStream tokenStream(String fieldName, Reader reader)
修改后的代码 Analyzer analyzer;
analyzer=new IKAnalyzer();
return analyzer.tokenStream(fieldName, reader);
重新编译Nutch:
在build.xml添加一条指令(在第195行的下面加入一行),使的编译war文件的时候加入ik分词器的jar文件。
build.xml
<lib dir="${lib.dir}">
<include name="lucene*.jar"/>
<include name="taglibs-*.jar"/>
<include name="hadoop-*.jar"/>
<include name="dom4j-*.jar"/>
<include name="xerces-*.jar"/>
<include name="tika-*.jar"/>
<include name="apache-solr-*.jar"/>
<include name="commons-httpclient-*.jar"/>
<include name="commons-codec-*.jar"/>
<include name="commons-collections-*.jar"/>
<include name="commons-beanutils-*.jar"/>
<include name="commons-cli-*.jar"/>
<include name="commons-lang-*.jar"/>
<include name="commons-logging-*.jar"/>
<include name="log4j-*.jar"/>
<include name="IKAnalyzer3.1.5GA.jar"/> <!-- add this line -->
</lib>
用ant重新编译build.xml文件
使用新生成的含中文分词功能的模块:
只用到刚才编译生成build文件夹下面一个文件,
build/nutch-1.0.job
把这个.job文件拿出来替换原来的nutch-1.0包里的.job文件
然后用把build下的classes文件夹打成nutch-1.0.jar文件 指令:jar cvf nutch-0.9.jar org
最后把nutch-1.0.war重新生成的文件夹下lib中的nutch-1.0.jar跟换成你新生成的nutch-1.0.jar文件,还要放入ik分词器的jar文件
最后爬取,搜索的结果就是按ik分过的中文词
- 描述: 123
- 大小: 8.2 KB
- 大小: 427.4 KB
分享到:
相关推荐
Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。
Eclipse 中编译 Nutch-1.0 运行源代码
nutch-1.0-dev.jar nutch devlope
Nutch-1.0分布式安装手册.rar,完整的
Nutch 是一个开源的、Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。
$ tar zxvf nutch-1.0.tar.gz 在e盘下面出现nutch-0.9文件夹说明解压成功了.然后环境变量设置为NUTCH_JAVA_HOME=C:\Program Files\Java\jdk1.5.0(也就是说跟JAVA_HOME是相同的).测试nutch是否安装成功,只需要执行...
Nutch 是一个开源的、Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。 nutch 1.0
ant-eclipse-1.0 nutch
Nutch 是一个开源的、Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。 nutch 1.0
Nutch 是一个开源的、Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。 nutch 1.0
Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。
Nutch 是一个开源的、Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。
Nutch 是一个开源的、Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。
Nutch 是一个开源的、Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。
Nutch 是一个开源的、Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。
Nutch 是一个开源的、Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。
apache-nutch-2.3.1-src.tar.gz
nutch配置nutch-default.xml
2、将中文分词库文件word-1.0.jar和依赖的日志库文件 slf4j-api-1.6.4.jar logback-core-0.9.28.jar logback-classic-0.9.28.jar 复制到刚创建的word目录 3、修改文件elasticsearch-1.1.0/config/elastic...
apache-nutch-1.3 的源码包,需要的可以看下