请问下,Lucene如何对Nutch抓取的页面进行索引啊?

解决方案 »

  1.   

    nutch没用过,但是这和对lucene去索引文件有区别吗?先把你通过nutch抓取的页面解析成字符串,然后去索引不就行了
      

  2.   

    好像说的是Nutch使用的就是Lucene的索引。
      

  3.   

    用Solr 进行索引,Solr同样是apache的开源项目,源码可以下到
      

  4.   

    你好!请教一些问题:
    请问一下
    1。你是如何把nutch抓取到的二进制内容,在项目中读取的。
    2。nutch抓取时候,发现有很多url没有被成功抓取过来,请问你做的时候,有什么 办法是提高成功率。
    3。对抓取过来内容你们是如何进行关键词搜索希望群主可以帮忙解答一下。万分感激!
    email:[email protected]