这段时间一直在研究nutch现在想用plugin方式以paoding实现中文分词,网上的我都看过拉,大多数都是告诉怎么建立没说怎么使用和配置。我已经用ant工具生成拉插件。而且nutch-default.xml 和 nutch-site.xml  已经加入插件拉,plugin.xml和build.xml 我是按德语分词插件改的。网上说的用languageidentifier插件生成.ngp文件才能调用自己写的分词器,可是我不知道怎么生.ngp文件,请各位大哥大姐帮帮忙。

解决方案 »

  1.   

    这段时间一直在研究nutch现在想用plugin方式以paoding实现中文分词,网上的我都看过拉,大多数都是告诉怎么建立没说怎么使用和配置。我已经用ant工具生成拉插件。而且nutch-default.xml 和 nutch-site.xml  已经加入插件拉,plugin.xml和build.xml 我是按德语分词插件改的。网上说的用languageidentifier插件生成.ngp文件才能调用自己写的分词器,可是我不知道怎么生.ngp文件,请各位大哥大姐帮帮忙。
    ===============================================================================================
    我知道如何生成.ngp文件,但我生成的zh.ngp文件是空白的,没内容,我是按照nutch 维基上的方法直接运行nutch的插件生成的,提示生成成功,但里面什么内容都没,估计是方法不对,等于没解决。现在我只能采取折中的方法,当lang为null时设置lang=“zh”,活将默认的analyzer设置为自己需要的analyzer。继续寻求生成有效的zh.ngp文件的方法,楼主或其它有谁找到后别忘了说一声。一起合作攻克nutch的难关,多谢先。!
      

  2.   

    话又说回来,就算能生成有效的.ngp文件,可以调用自己的analyzer后,很多地方还是不能使用的,索引没大问题,搜索还是有问题的。比如Indexer.java里有个别地方用到analyzer时是硬编码直接new 的,不是从analyzerFactory获取的,虽然没报错,但是否影响索引有待继续验证。还有很多地方,比如nutch自带的analyzer是mapreduce实现的,第三方的都不是,这样通过插件集成近来的analyzer,估计性能上肯定不及nutch自带的好,不过一般场合下凑合着能用,