高分求教Solr实现自动聚类!!!!高手进!!

使用nutch爬取网页，然后把数据发送到Solr中建立索引，并提供查询。question:在solr中如何在对网页内容进行索引的时候，把在内容中出现词频最多的词组进行归类。注意:在solr中有carrot2的自动聚类插件，但是那个得要有特征这个字段才可以(<str name="carrot.snippet">features</str>)，也就是说提前先把文章分好类了，但是从nutch爬取回来的网页却是没有经过分类的，所以想要解决这个问题。所以我的想法是在solr进行索引的时候找出文章中词频达到一定量的文章，然后放到一个字段里面。就可以使用carrot来进行聚类了。但是不知道该在哪一步进行操作和操作的细节...请高手指教!!!

解决方案 »

免费领取超大流量手机卡，每月29元包185G流量+100分钟通话, 中国电信官方发货

用过lucene没用过Solr,帮你顶下吧
请问使用lucene怎么样进行分词并且记录词频呢??
使用lucene可以用一些开源的分词工具，比如庖丁解牛
你在CSDN上或者JAVAEYE上问solr是白问什么都问不出来的
你去QQ上搜SOLR群和搜索引擎群吧我确实纳闷你用了nutch 为什么还要用solr去建索引
我只用solr做了简单的分布式搜索
关于词频和分词没研究过爱莫能助呀···
使用Nutch主要是爬取网页的内容，然后进行索引到solr中。Nutch的查询感觉没solr好..
今天看了几下，有一个新的想法，就是在nutch中增加一个keywords的字段，然后把html里面的
<meta name="keywords" value="" />的值放到里面去..但是不知道在nutch的哪里切入　
最近也在研究nutch聚类的问题，我的想法是再term的索引上建立一个二级的类别索引，还在试验阶段，希望多多交流
朋友请问你solr中聚类标签如何生成的原理，能解释一下吗？
帖子有点就远了，我最近在搞solr的自动聚类，在一篇文章找出出现次数最多的词，我可以找出来，但是不知道怎么聚类