这段时间一直在研究nutch现在想用plugin方式以paoding实现中文分词,网上的我都看过拉,大多数都是告诉怎么建立没说怎么使用和配置。我已经用ant工具生成拉插件。而且nutch-default.xml 和 nutch-site.xml 已经加入插件拉,plugin.xml和build.xml 我是按德语分词插件改的。网上说的用languageidentifier插件生成.ngp文件才能调用自己写的分词器,可是我不知道怎么生.ngp文件,请各位大哥大姐帮帮忙。
调试欢乐多
===============================================================================================
我知道如何生成.ngp文件,但我生成的zh.ngp文件是空白的,没内容,我是按照nutch 维基上的方法直接运行nutch的插件生成的,提示生成成功,但里面什么内容都没,估计是方法不对,等于没解决。现在我只能采取折中的方法,当lang为null时设置lang=“zh”,活将默认的analyzer设置为自己需要的analyzer。继续寻求生成有效的zh.ngp文件的方法,楼主或其它有谁找到后别忘了说一声。一起合作攻克nutch的难关,多谢先。!