本人毕业论文想做一个搜索引擎，有几个难题向高手请教！200分不够再给

呵呵，本科毕业设计时间太少，研究生可以做，用JAVA+XML实现

解决方案 »

免费领取超大流量手机卡，每月29元包185G流量+100分钟通话, 中国电信官方发货

用xml？那一部分可以用到xml呢？
应该是网页的内容用xml来存储吧，查询时可能是对xml进行操作，可能与RSS的一些东西有点相似，不知道说得对不对，请高手指点啊
搜索引擎不要用java
他的核心是数据仓库存储、索引查询、机器人自动收集网站的技术
这些都不是java所擅长的
机器人肯定不能用jsp作，用java application效率比c、c＋＋插多了你的核心技术是机器人的算法
miaoliujun(傲龙) 能否说得详细一点，你的意思是直接从流中读，用BufferedReader一次读一行,边读边分析匹配？那会不会存在我上面说过的问题，就是html标签对的匹配问题，例如现在读到的是<a href="xxx">但是</a>下次才能读到。可不可以一次性的全部读到某个对象中然后再来分析？
据说用perl来解析字符串比较好。
用开源软件作吧！容易实现
抓取网页可以使用Heritrix,建索引和检索可以用lucene，这是一种方案，另外一种是用nutch来做，它将抓取网页，建索引和检索都实现了，目前这个软件还是不成熟，但是功能强大。你可以去google搜一下。但考虑你要做的毕设不知道你是打算自己写一个呢，还是使用成熟的开源软件，若要使用第三方软件，建议使用这些开源软件。
如果用java作，现在有很多开源项目可以研究, 使用.
比如说bot, lucene...已经实现你需要的大部分功能，做起来会比较容易。
即使你要直接来实现，也可以参照其中的方法，网上有一篇论坛可能会对你有帮助。
http://www.infoxa.com/asp/book/xxnr.asp?id=1071 我也研究过一段时间的搜索引擎，不过为了工作的事情，不敢花大时间在上面。
如果只是针对几个网站的话，不需要参考什么开源代码。
java实现很容易。但需要时间。
java做搜索引擎同样很优秀
别以为java效率低，看你会不会用蠢人才说java效率低呢。
本人准备自己实现，而不是用现有开源的东西，不过我之前都不知道有这些开源的东西，我是要去学习学习，已经定了 evilzydar(zydar）兄推荐的那本书，应该很有帮助，谢谢，希望大家多多献计献策 3q
我现在遇到一个新的问题，我抓网页，是用inputStream读过来的，所以不管什么格式的例如图片什么的，都会抓下来，我现在只处理文本网页，那如何判断我抓过来的是不是文本格式呢？