java web爬虫技术谁会。。求指教!! 急急急~~哪个大哥不吝啬赐教!在下感激不尽! 解决方案 » 免费领取超大流量手机卡,每月29元包185G流量+100分钟通话, 中国电信官方发货 这个是我拷贝的、貌似很老的方法 不过还好用 import org.htmlparser.Node; import org.htmlparser.NodeFilter; import org.htmlparser.Parser; import org.htmlparser.tags.LinkTag; import org.htmlparser.util.NodeList; /** * * @author [email protected] */ public class GetLinkTest { public static void main(String[] args) { try { // 通过过滤器过滤出<A>标签 Parser parser = new Parser("http://forum.csdn.net/PointForum/Forum/TopicList.aspx?Alias=Java_WebDevelop&ListType=UnClosedList&page=5"); NodeList nodeList = parser.extractAllNodesThatMatch(new NodeFilter() { // 实现该方法,用以过滤标签 public boolean accept(Node node) { if (node instanceof LinkTag)// 标记 { return true; } return false; } }); // 打印 for (int i = 0; i < nodeList.size(); i++) { LinkTag n = (LinkTag) nodeList.elementAt(i); System.out.print(n.getStringText() + " ==>> "); System.out.println(n.extractLink()); try { if (n.extractLink().equals("http://forum.csdn.net/PointForum/Forum/TopicList.aspx?Alias=Java_WebDevelop&ListType=UnClosedList&page=5")) { System.out.println("***"+n.extractLink()); } } catch (Exception e) { } } } catch (Exception e) { e.printStackTrace(); } } } 需要的jar包的名字也都给了 去下就是了、吃饭 试了就知道了啊、这个达不到你需求可以百度 java网页蜘蛛 或者 java网页爬虫核心是 htmlparser 还有一个jar htmlclean 吧? 用struts2时在怎么控制通过action在新窗口打开新页面? 竟然有人说“jsp 就是一个垃圾东西”,你怎么看? 请问用dreamweaver怎么连SQL Server数据库 求助关于获取web服务器ip地址? [求]关于UML的中英文对照材料 struts2 最简单的还是模糊 为什么windows xp(sp2)的IE浏览器会显示.jsp的源代码? 在jsp页面中点击某一列,对表进行正序排序,再点击实现倒序排序 中文乱码问题!!!急啊!! servlet的重定向问题(在线等,解决立即给分) 应用程序已经启动一个名为[AWT-Window]的线程 关于Hibernate纯对象化查询
import org.htmlparser.Node;
import org.htmlparser.NodeFilter;
import org.htmlparser.Parser;
import org.htmlparser.tags.LinkTag;
import org.htmlparser.util.NodeList;
/**
*
* @author [email protected]
*/
public class GetLinkTest {
public static void main(String[] args) {
try {
// 通过过滤器过滤出<A>标签
Parser parser = new Parser("http://forum.csdn.net/PointForum/Forum/TopicList.aspx?Alias=Java_WebDevelop&ListType=UnClosedList&page=5");
NodeList nodeList = parser.extractAllNodesThatMatch(new NodeFilter() {
// 实现该方法,用以过滤标签
public boolean accept(Node node) {
if (node instanceof LinkTag)// 标记
{
return true;
}
return false;
}
});
// 打印
for (int i = 0; i < nodeList.size(); i++) {
LinkTag n = (LinkTag) nodeList.elementAt(i);
System.out.print(n.getStringText() + " ==>> ");
System.out.println(n.extractLink());
try {
if (n.extractLink().equals("http://forum.csdn.net/PointForum/Forum/TopicList.aspx?Alias=Java_WebDevelop&ListType=UnClosedList&page=5")) {
System.out.println("***"+n.extractLink());
}
} catch (Exception e) {
}
}
} catch (Exception e) {
e.printStackTrace();
}
}
}
吃饭
这个达不到你需求
可以百度 java网页蜘蛛 或者 java网页爬虫
核心是 htmlparser 还有一个jar htmlclean 吧?