http://tool.chinaz.com/,像站长工具这样,检测网站死链接是如何做的?希望做过这方面的大侠给个提示,方便的话,给个参考例子最好,谢谢!

解决方案 »

  1.   

    先用xmlhttprequest对象获取整个网页源码,然后通过正则或dom查找出其中的链接,然后再通过xmlhttprequest对象直接访问这个链接,由对象返回的连接状态判断是否是死链接,如果不是死的,那一般是200(但愿没记错)。一般应该是这样的吧,坐等高手
      

  2.   

    1. 利用WebRequest、WebResponse获取目标页面的html源码,若不可访问记录下来
    2. 利用正则分析出所有链接
    3. 递归检测所有链接,重复1
      

  3.   

    检测网站死链接从一个网页入口,分析链接,一层一层的遍历,或者从一组网页入口,或者从一个rss源列表开始爬rss;  
    获取每个页面的源码保存在磁盘或者数据库里;  
    遍历抓下来的网页进行处理,比如提取正文,消重等;  
    根据用途把处理后的文本进行索引、分类、聚类等操作
    参考
    爬虫