求页面扫描,抓取,解析相关工具和思路 - 调试易

求页面扫描,抓取,解析相关工具和思路

本帖最后由 java2000_net 于 2008-08-04 20:54:50 编辑

解决方案 »

免费领取超大流量手机卡，每月29元包185G流量+100分钟通话, 中国电信官方发货

HTTPREQUEST是可以获取页面的HTML代码的，分析就是对HTML代码分析
URL url = new URL("http://www.yahoo.com");
DataInputStream in = new DataInputStream(url.openStream());
String input;
while((input = in.readLine()) != null)
{
System.out.println(input);
}
in.close();and use regular express in String "input"
HTMLParser之类的开源的类库还是很多的.
http://htmlparser.sourceforge.ne
这个解析还不错，用过一点点感觉很非常强大
解析工具很多这也是一个： http://www.jspx.net/help/jtxml/index.html