使用nutch爬取网页,然后把数据发送到Solr中建立索引,并提供查询。question:在solr中如何在对网页内容进行索引的时候,把在内容中出现词频最多的词组进行归类。注意:在solr中有carrot2的自动聚类插件,但是那个得要有特征这个字段才可以(<str name="carrot.snippet">features</str>),也就是说提前先把文章分好类了,但是从nutch爬取回来的网页却是没有经过分类的,所以想要解决这个问题。所以我的想法是在solr进行索引的时候找出文章中词频达到一定量的文章,然后放到一个字段里面。就可以使用carrot来进行聚类了。但是不知道该在哪一步进行操作和操作的细节...请高手指教!!!

解决方案 »

  1.   

    用过lucene没用过Solr,帮你顶下吧
      

  2.   

    请问使用lucene怎么样进行分词并且记录词频呢??
      

  3.   

    使用lucene可以用一些开源的分词工具,比如庖丁解牛
      

  4.   

    你在CSDN上 或者JAVAEYE上问solr是白问 什么都问不出来的
    你去QQ上 搜SOLR群 和搜索引擎群吧我确实纳闷你用了nutch 为什么还要用solr去建索引
    我只用solr做了简单的分布式搜索
    关于词频和分词 没研究过 爱莫能助呀···
      

  5.   


    使用Nutch主要是爬取网页的内容,然后进行索引到solr中。Nutch的查询感觉没solr好..
    今天看了几下,有一个新的想法,就是在nutch中增加一个keywords的字段,然后把html里面的 
    <meta name="keywords" value="" />的值放到里面去..但是不知道在nutch的哪里切入 
      

  6.   

    最近也在研究nutch聚类的问题,我的想法是再term的索引上建立一个二级的类别索引,还在试验阶段,希望多多交流
      

  7.   

    朋友请问你solr中聚类标签如何生成的原理,能解释一下吗?
      

  8.   

    帖子有点就远了,我最近在搞solr的自动聚类,在一篇文章找出出现次数最多的词,我可以找出来,但是不知道怎么聚类