比如
http://www.xxx.com/这个网站
此网站有页面
http://www.xxx.com/a.aspx
http://www.xxx.com/b.html
http://www.xxx.com/c.htm怎么在已知http://www.xxx.com/的情况下获得 abc三个页面就想搜索蜘蛛一样,自动抓取网站链接
http://www.xxx.com/这个网站
此网站有页面
http://www.xxx.com/a.aspx
http://www.xxx.com/b.html
http://www.xxx.com/c.htm怎么在已知http://www.xxx.com/的情况下获得 abc三个页面就想搜索蜘蛛一样,自动抓取网站链接
解决方案 »
- 来个高手求高数,别的机器可以输出,我这台输出不了。字符转换不了时间
- C#中,IO流的问题
- 高分求救(Graphics的使用),不够可以再加
- 怎么得到dataGrid中某一列的宽度
- 为什么我运行窗口(非控制台)程序,后面总是有个控制台显示出来
- 是否可以实现这样的功能,每次开机自动删除特定文件,这将大大提高网管效率啊!!!
- 怎样定义小数位数?
- 大家推荐几个C#的中文网站!
- [热点关注]在Windows 2003上用VS.NET 2003遇到的问题
- 请教高手:使用C#开发B/S结构,即WebApplication时,如何保存附件(*.doc,*.xls,*.txt)等格式
- 关于在wince贴PNG图的问题
- 50分求交友网中视频认证这个功能如何实现的
怎么会不知道简单方法:页面链接抽取(深度/广度搜索)
1. 获取http://www.xxx.com/页面1;
2. 抽取页面1中所有链接;
3. 第2步结果匹配本站http://www.xxx.com/链接,过滤已获取的网页链接获取要获取链接;
4. 对3结果获取网页,依次递归。
如果本站某些连接,根本不存在<a>标签的超链接,这样你就没办法取了?
首先明确超链接的格式...(编写统一正则)
编码格式!
编写方法获取网页原代码
一个静态的hash表用来存放网址
将获取的源代码用正则分析(return 类型hash表或者其他集合)
将传过来的网址存放到hash表中过滤重复!
反复执行...............................
OK
就是想有个地图!