请问alabaza:
   我的想法就是用java的URL类把有关网页的源代码下载下来,然后用正则表达式提取其中的"<a href="http://......"部分,从而获得该网页的出链接.
   如果像你说的那样,网页的源代码并不包含所有的出链接,那正则表达式怎么能提取到URL呢?

解决方案 »

  1.   

    哦 第一个问题我看错了 不好意思 看成了用URL类下载下来的是否包含了其所有的出链接? 少看了几个字。你的想法是正确的。
      

  2.   

    private final static String expression = "<a\\s+href\\s*=\\s*\"?\'?(.*?)[\"|>]";
    private static Pattern  pattern  = Pattern.compile(expression,Pattern.CASE_INSENSITIVE);
    Matcher m = pattern.matcher(content);
    while(m.find()){ m.group(1).trim());}
    匹配url.