比如
http://www.xxx.com/这个网站
此网站有页面
http://www.xxx.com/a.aspx
http://www.xxx.com/b.html
http://www.xxx.com/c.htm怎么在已知http://www.xxx.com/的情况下获得 abc三个页面就想搜索蜘蛛一样,自动抓取网站链接

解决方案 »

  1.   

    不是知道搜索蜘蛛?
    怎么会不知道简单方法:页面链接抽取(深度/广度搜索)
    1. 获取http://www.xxx.com/页面1;
    2. 抽取页面1中所有链接;
    3. 第2步结果匹配本站http://www.xxx.com/链接,过滤已获取的网页链接获取要获取链接;
    4. 对3结果获取网页,依次递归。
      

  2.   

    楼上回答存在问题。
    如果本站某些连接,根本不存在<a>标签的超链接,这样你就没办法取了?
      

  3.   

    链接的html标记就是<a></a>肯定的这是
      

  4.   

    假设有一个网站,域名是 www.abc.com你访问网页的时候,充其量访问的是web服务器给你指定的默认页面,如index.htm、default.html或者什么其他语言。。你是无法访问其他任何页面的。当你访问了这个页面的时候,此页面上无任何超链接,说说吧,怎么取。还有思路吗?
      

  5.   

    分析目标网站是否可行(比如说经常有500错误...)
    首先明确超链接的格式...(编写统一正则)
    编码格式!
    编写方法获取网页原代码
    一个静态的hash表用来存放网址
    将获取的源代码用正则分析(return 类型hash表或者其他集合)
    将传过来的网址存放到hash表中过滤重复!
    反复执行...............................
    OK
      

  6.   

    老大们,有没有什么软件可以生成网站文本地图啊?我的站:8we8网赚之家:http://www.8we8.cn
    就是想有个地图!