想java实现一个元搜索引擎,目前我的思路是向网络上的web服务器发送一个http请求,从网络上获取一个http回应,是一个html文档,在这个文档里面,有我需要的东西,当然也有我不要的东西,怎么解串获取我想要的信息(一般我想要的是一些超连接和一些描述该超连接的文本信息)

解决方案 »

  1.   

    只能是根据html标记进行字符串的分析
      

  2.   

    html标记进行字符串的分析??
    可以大致说明一下思路嘛?
    还有上面提的问题是的我初期想法,不晓得哪位有没有其他好的思路实现这个元搜索引擎
      

  3.   

    你可以使用jtidy把你获取到的html先转为dom,然后……
      

  4.   

    描述信息非常准是不可能的,除非你知道其网站的页面结构,比如知道你要的信息在哪个<td>里面,这样才能获取到,自动的话,应该比较复杂,google也不过是取文本而已
      

  5.   

    找开源的html解析包, 把无用的一些标签去掉, 找到有用的比如联接等信息
      

  6.   

    字串搜索"<A"和"< A"一般就足以找到链接内容了,再对">","</A>"等进行搜索,取内容.考虑有的HTML代码书写不规范,为了更有通用性,可以把多余的空格先过滤掉,用REPLACE等方法.