如何探测网站目录,并采集 比如就拿csdn这篇新闻来说吧: http://cloud.csdn.net/a/20110826/303631.html 我想把 http://cloud.csdn.net/a/ 这个a目录采集下来,有没有办法能实现这种探测方案? ( 不是直接采集网页的方法,是采目录。) 解决方案 » 免费领取超大流量手机卡,每月29元包185G流量+100分钟通话, 中国电信官方发货 没有,因为a不一定是目录,你也知道现在url重写,名字虚的太多。PS:网站IIS日志分析软件推荐:点格网站日志分析器[IISLogViewer] 有时候是伪链接,怎么能知道目录呢。gogogo 爬虫。从一个网页入口,分析链接,一层一层的遍历,或者从一组网页入口,或者从一个rss源列表开始爬rss; 获取每个页面的源码保存在磁盘或者数据库里; 遍历抓下来的网页进行处理,比如提取正文,消重等; 根据用途把处理后的文本进行索引、分类、聚类等操作参考爬虫 2楼说的也对,现在使用url重写的太多,mvc模式就更是了,但我采的目录下是一堆html或者是一堆文件,所以这个问题暂时还不需要考虑。 使用PasswordRecovery登录控件发邮件的问题 菜鸟求教啦 关于在类里面调用存储过程SqlDbTyped的问题 关于Tcp协议客户端往服务器端传值问题 不规则字符串分割问题 求注释 请问:提取字符串的第m个字节开始的n个字节的那段字符 ExecuteScalar();的提问 三层结构问题 label的ToolTip该怎么用 Table控件动态生成按钮及事件 oracle数据中保存图片
gogogo
获取每个页面的源码保存在磁盘或者数据库里;
遍历抓下来的网页进行处理,比如提取正文,消重等;
根据用途把处理后的文本进行索引、分类、聚类等操作
参考
爬虫