使用nutch爬取网页,然后把数据发送到Solr中建立索引,并提供查询。question:在solr中如何在对网页内容进行索引的时候,把在内容中出现词频最多的词组进行归类。注意:在solr中有carrot2的自动聚类插件,但是那个得要有特征这个字段才可以(<str name="carrot.snippet">features</str>),也就是说提前先把文章分好类了,但是从nutch爬取回来的网页却是没有经过分类的,所以想要解决这个问题。所以我的想法是在solr进行索引的时候找出文章中词频达到一定量的文章,然后放到一个字段里面。就可以使用carrot来进行聚类了。但是不知道该在哪一步进行操作和操作的细节...请高手指教!!!
你去QQ上 搜SOLR群 和搜索引擎群吧我确实纳闷你用了nutch 为什么还要用solr去建索引
我只用solr做了简单的分布式搜索
关于词频和分词 没研究过 爱莫能助呀···
使用Nutch主要是爬取网页的内容,然后进行索引到solr中。Nutch的查询感觉没solr好..
今天看了几下,有一个新的想法,就是在nutch中增加一个keywords的字段,然后把html里面的
<meta name="keywords" value="" />的值放到里面去..但是不知道在nutch的哪里切入