呵呵,本科毕业设计时间太少,研究生可以做,用JAVA+XML实现

解决方案 »

  1.   

    用xml?那一部分可以用到xml呢?
      

  2.   

    应该是网页的内容用xml来存储吧,查询时可能是对xml进行操作,可能与RSS的一些东西有点相似,不知道说得对不对,请高手指点啊
      

  3.   

    搜索引擎不要用java
    他的核心是数据仓库存储、索引查询、机器人自动收集网站的技术
    这些都不是java所擅长的
    机器人肯定不能用jsp作,用java application效率比c、c++插多了你的核心技术是机器人的算法
      

  4.   

    miaoliujun(傲龙) 能否说得详细一点,你的意思是直接从流中读,用BufferedReader一次读一行,边读边分析匹配?那会不会存在我上面说过的问题,就是html标签对的匹配问题,例如现在读到的是<a href="xxx">但是</a>下次才能读到。可不可以一次性的全部读到某个对象中然后再来分析?
      

  5.   

    据说用perl来解析字符串比较好。
      

  6.   

    用开源软件作吧!容易实现
    抓取网页可以使用Heritrix,建索引和检索可以用lucene,这是一种方案,另外一种是用nutch来做,它将抓取网页,建索引和检索都实现了,目前这个软件还是不成熟,但是功能强大。你可以去google搜一下。但考虑你要做的毕设不知道你是打算自己写一个呢,还是使用成熟的开源软件,若要使用第三方软件,建议使用这些开源软件。
      

  7.   

    如果用java作,现在有很多开源项目可以研究, 使用.
    比如说bot, lucene...已经实现你需要的大部分功能,做起来会比较容易。
    即使你要直接来实现,也可以参照其中的方法,网上有一篇论坛可能会对你有帮助。
    http://www.infoxa.com/asp/book/xxnr.asp?id=1071 我也研究过一段时间的搜索引擎,不过为了工作的事情,不敢花大时间在上面。
      

  8.   

    如果只是针对几个网站的话,不需要参考什么开源代码。
    java实现很容易。但需要时间。
    java做搜索引擎同样很优秀
    别以为java效率低,看你会不会用蠢人才说java效率低呢。
      

  9.   

    本人准备自己实现,而不是用现有开源的东西,不过我之前都不知道有这些开源的东西,我是要去学习学习,已经定了 evilzydar(zydar)兄推荐的那本书,应该很有帮助,谢谢,希望大家多多献计献策 3q
      

  10.   

    我现在遇到一个新的问题,我抓网页,是用inputStream读过来的,所以不管什么格式的例如图片什么的,都会抓下来,我现在只处理文本网页,那如何判断我抓过来的是不是文本格式呢?