解决方案 »

  1.   

    不知道可以不 Document doc = Jsoup.connect("http://bbs.csdn.net/topics/390767869").get();
    Elements links = doc.getElementsByTag("a");
    for(Element link : links) {
    String linkHref = link.attr("href");
    String linkText = link.text();
    System.out.println(linkHref+"---->"+linkText);
    }
      

  2.   

    你这只是实现了一个功能:从html源代码中提取uri : uris getURISFromHTML(html)
    没有递归的找出相应的子urI
      

  3.   

    你这些 方法 getURISFromHTML  哪里来的。 我上面是列出所有的url/
    有遗漏吗?比如?
      

  4.   

    那个没列出子的?我还是没明白,不好意思。
    你就解析当前页,http://bbs.csdn.net/topics/390767869。我看下,谢谢。
      

  5.   


    Document doc = Jsoup.connect("http://bbs.csdn.net/topics/390767869").get();
        Elements links = doc.getElementsByTag("a");
        for(Element link : links) {
        String linkHref = link.attr("href");
        String linkText = link.text();
        System.out.println(linkHref+"---->"+linkText);
        }
    你只是将http://bbs.csdn.net/topics/390767869页面中的链接提取出来了,但是我要的是还要将其子链接再次提取出来。
    比如说:/help#user_criterion是该页面的一个子链接,我现在也要递归的提取/help#user_criterion页面下的链接,一直这么递归的去提取。
      

  6.   

    哦。这个意思也就是链接页面的 url
    你一样递归再调用 
    Document doc = Jsoup.connect("http://bbs.csdn.net/help#user_criterion").get();
    Elements links = doc.getElementsByTag("a");
    for(Element link : links) {
    String linkHref = link.attr("href");
    String linkText = link.text();
    System.out.println(linkHref+"---->"+linkText);
    }

    不过要处理下递归跳出的条件。防止溢出。