请教一个功能是如何实现(在线等) http://tool.chinaz.com/,像站长工具这样,检测网站死链接是如何做的?希望做过这方面的大侠给个提示,方便的话,给个参考例子最好,谢谢! 解决方案 » 免费领取超大流量手机卡,每月29元包185G流量+100分钟通话, 中国电信官方发货 先用xmlhttprequest对象获取整个网页源码,然后通过正则或dom查找出其中的链接,然后再通过xmlhttprequest对象直接访问这个链接,由对象返回的连接状态判断是否是死链接,如果不是死的,那一般是200(但愿没记错)。一般应该是这样的吧,坐等高手 1. 利用WebRequest、WebResponse获取目标页面的html源码,若不可访问记录下来2. 利用正则分析出所有链接3. 递归检测所有链接,重复1 检测网站死链接从一个网页入口,分析链接,一层一层的遍历,或者从一组网页入口,或者从一个rss源列表开始爬rss; 获取每个页面的源码保存在磁盘或者数据库里; 遍历抓下来的网页进行处理,比如提取正文,消重等; 根据用途把处理后的文本进行索引、分类、聚类等操作参考爬虫 关于bitmap图像显示 静态函数调用问题,一百分寻朋友们解围? jquery读取json格式的数据,并显示在页面 如何添加附件 页面传值乱码问题 网络信息资源抓取及整合的思路及实例收集! 運用ASP.NET 與 Crystal Report做套表列印 , 是否有範例可以參考? 端口引起的调试问题 请问如何配置DNS域名服务器? 各位大哥来看看,关于图片分页问题(谢谢各位了) 客户端明细数据的保存 .net2.0使用Json.net4.0处理json字符串问题
2. 利用正则分析出所有链接
3. 递归检测所有链接,重复1
获取每个页面的源码保存在磁盘或者数据库里;
遍历抓下来的网页进行处理,比如提取正文,消重等;
根据用途把处理后的文本进行索引、分类、聚类等操作
参考
爬虫