当然不要求功能什么的,只要能检索出网页和排序就行了。
我的想法是把网页捉下来,在将html转成文档。可这样就达不到预想的效果了,高人们指点一下吧。

解决方案 »

  1.   

    自己写个网络爬虫前端,然后用它抓取网页,用lucene建立索引,建立分词库,然后写个用户界面就行了。最好你的爬虫的功能很强大,你的服务器也够强大才行
      

  2.   

    如果你对数据库进行全文检索,而且你对Lucene建立的索引的更新非常的不乐意,那我建议你用Compass来替换Lucene
      

  3.   

    1:后台程序源源不断提取html源代码并存储数据库
    2:建立web服务端,响应客户端请求(收到请求后再到数据库进行词法解析,正则查找并反馈)