nutch如何生成zh.ngp文件

这段时间一直在研究nutch现在想用plugin方式以paoding实现中文分词,网上的我都看过拉,大多数都是告诉怎么建立没说怎么使用和配置。我已经用ant工具生成拉插件。而且nutch-default.xml 和 nutch-site.xml 已经加入插件拉，plugin.xml和build.xml 我是按德语分词插件改的。网上说的用languageidentifier插件生成.ngp文件才能调用自己写的分词器，可是我不知道怎么生.ngp文件，请各位大哥大姐帮帮忙。

解决方案 »

免费领取超大流量手机卡，每月29元包185G流量+100分钟通话, 中国电信官方发货

这段时间一直在研究nutch现在想用plugin方式以paoding实现中文分词,网上的我都看过拉,大多数都是告诉怎么建立没说怎么使用和配置。我已经用ant工具生成拉插件。而且nutch-default.xml 和 nutch-site.xml  已经加入插件拉，plugin.xml和build.xml 我是按德语分词插件改的。网上说的用languageidentifier插件生成.ngp文件才能调用自己写的分词器，可是我不知道怎么生.ngp文件，请各位大哥大姐帮帮忙。
===============================================================================================
我知道如何生成.ngp文件，但我生成的zh.ngp文件是空白的，没内容，我是按照nutch 维基上的方法直接运行nutch的插件生成的，提示生成成功，但里面什么内容都没，估计是方法不对，等于没解决。现在我只能采取折中的方法，当lang为null时设置lang＝“zh”，活将默认的analyzer设置为自己需要的analyzer。继续寻求生成有效的zh.ngp文件的方法，楼主或其它有谁找到后别忘了说一声。一起合作攻克nutch的难关，多谢先。！
话又说回来，就算能生成有效的.ngp文件，可以调用自己的analyzer后，很多地方还是不能使用的，索引没大问题，搜索还是有问题的。比如Indexer.java里有个别地方用到analyzer时是硬编码直接new 的，不是从analyzerFactory获取的，虽然没报错，但是否影响索引有待继续验证。还有很多地方，比如nutch自带的analyzer是mapreduce实现的，第三方的都不是，这样通过插件集成近来的analyzer，估计性能上肯定不及nutch自带的好，不过一般场合下凑合着能用，