如何取一个网站的所有连接？ - 调试易

如何取一个网站的所有连接？

比如
http://www.xxx.com/这个网站
此网站有页面
http://www.xxx.com/a.aspx
http://www.xxx.com/b.html
http://www.xxx.com/c.htm怎么在已知http://www.xxx.com/的情况下获得 abc三个页面就想搜索蜘蛛一样，自动抓取网站链接

解决方案 »

免费领取超大流量手机卡，每月29元包185G流量+100分钟通话, 中国电信官方发货

不是知道搜索蜘蛛？
怎么会不知道简单方法：页面链接抽取(深度/广度搜索)
1. 获取http://www.xxx.com/页面1;
2. 抽取页面1中所有链接；
3. 第2步结果匹配本站http://www.xxx.com/链接，过滤已获取的网页链接获取要获取链接；
4. 对3结果获取网页，依次递归。
楼上回答存在问题。
如果本站某些连接，根本不存在<a>标签的超链接，这样你就没办法取了？
链接的html标记就是<a></a>肯定的这是
假设有一个网站，域名是 www.abc.com你访问网页的时候，充其量访问的是web服务器给你指定的默认页面，如index.htm、default.html或者什么其他语言。。你是无法访问其他任何页面的。当你访问了这个页面的时候，此页面上无任何超链接，说说吧，怎么取。还有思路吗？
分析目标网站是否可行(比如说经常有500错误...)
首先明确超链接的格式...(编写统一正则)
编码格式!
编写方法获取网页原代码
一个静态的hash表用来存放网址
将获取的源代码用正则分析(return 类型hash表或者其他集合)
将传过来的网址存放到hash表中过滤重复!
反复执行...............................
OK
老大们，有没有什么软件可以生成网站文本地图啊？我的站：8we8网赚之家：http://www.8we8.cn
就是想有个地图！