如何获取网页上的超链地址?我们在做个系统,我的任务是把指定网页上的下一级网页的地址弄出来,是要在网页源码里搜索吗?希望高手帮忙啊!!!

解决方案 »

  1.   

    先提取网页源代码,然后用正则表达式得到所有的连接地址
    <script>
    var str="ksldfjk<a href='a.jsp'>aaa</a><a href='a.jsp'>aaa</a><a href='a.jsp'>aaa</a>";
    var url=[];
    var i=0;
    str.replace(/<a\s+href=[\"']?([^<>\"']*)[\"']?>/g,function($0,$1){url[i]=$1;i++});
    alert(url);
    </script>
      

  2.   

    不用啊,把网页多读过来,用dom解析就可以了。用javascript就能读的。
    例如我们的页面中有多个超链接,其重要标记为A tag
    用javascript方法分析
    function readlink()
    {
       var alinks=document.links;
       alert(alinks);
       for(i=0;i<alinks.length;i++)
          alert(alinks[i].href);//alinks[i].href就是要的链接url
    }
      

  3.   

    在java中只能分析纯Html语法。
    在js中可以有document.links array 对象
      

  4.   

    如果用C语言写的话,应该怎么办呢?是否要先将网页还原成HTML的代码形式,再通过一定的算法进行遍历和搜索呢?实在是没什么头绪啊.