有关URL的问题

请问alabaza:
我的想法就是用java的URL类把有关网页的源代码下载下来,然后用正则表达式提取其中的"<a href="http://......"部分,从而获得该网页的出链接.
如果像你说的那样,网页的源代码并不包含所有的出链接,那正则表达式怎么能提取到URL呢?

哦第一个问题我看错了不好意思看成了用URL类下载下来的是否包含了其所有的出链接? 少看了几个字。你的想法是正确的。
private final static String expression = "<a\\s+href\\s*=\\s*\"?\'?(.*?)[\"|>]";
private static Pattern  pattern  = Pattern.compile(expression,Pattern.CASE_INSENSITIVE);
Matcher m = pattern.matcher(content);
while(m.find()){ m.group(1).trim());}
匹配url.