使用nutch爬取网页,然后把数据发送到Solr中建立索引,并提供查询。question:在solr中如何在对网页内容进行索引的时候,把在内容中出现词频最多的词组进行归类。注意:在solr中有carrot2的自动聚类插件,但是那个得要有特征这个字段才可以(<str name="carrot.snippet">features</str>),也就是说提前先把文章分好类了,但是从nutch爬取回来的网页却是没有经过分类的,所以想要解决这个问题。所以我的想法是在solr进行索引的时候找出文章中词频达到一定量的文章,然后放到一个字段里面。就可以使用carrot来进行聚类了。但是不知道该在哪一步进行操作和操作的细节...请高手指教!!!
解决方案 »
- JBPM4.4查询待办任务怎么没有数据?求指点!!!
- 新手问题,关于HelloWorld的。
- struts 2.0 textfield标签格式化问题~~~急!!
- 用TOMCAT发布的时候在webapps底下放一个.jsp文件,浏览器里面输http://localhost;8080/*.jsp就抱错
- Hibernage操作视图的问题
- 实现由程序自动下载服务器端指定路径名称的文件和自动上传客户端指定路径和名称的文件的方法,急啊!!!
- 分享知识,鼓励原创——BEA“原创技术高手”大比拼!
- 请给一段JTable里放置JCheckBox和JComboBox的源码,自定义的tableModel.谢谢。
- 关于DOM4J的XSLT支持问题
- Weblogic 6.0y启动出错如下...
- dom4j解析SOAP型xml文件命名空间的问题
- com.sun.mail.smtp.SMTPSendFailedException: 550 Access denied - Invalid HELO name
你去QQ上 搜SOLR群 和搜索引擎群吧我确实纳闷你用了nutch 为什么还要用solr去建索引
我只用solr做了简单的分布式搜索
关于词频和分词 没研究过 爱莫能助呀···
使用Nutch主要是爬取网页的内容,然后进行索引到solr中。Nutch的查询感觉没solr好..
今天看了几下,有一个新的想法,就是在nutch中增加一个keywords的字段,然后把html里面的
<meta name="keywords" value="" />的值放到里面去..但是不知道在nutch的哪里切入