想做一个web数据采集的工具,有没有哪位大大做过这方面的给个思路,或者推荐相关书籍也可以!

解决方案 »

  1.   

    花几天学学正则这种基本上都是苦力活。或者基于dom,但是效率和灵活性可能不高
      

  2.   

    网络爬虫 ,把网页的内容获取下来,  上CSDN 下载频道上挺多的。
      

  3.   

    可通过XML或webrequest实现数据采集
    参考
    http://www.cnblogs.com/stephencat/archive/2006/12/11/589112.html
    http://www.cnblogs.com/overred/archive/2007/08/06/OverredGather.html
    http://www.cnblogs.com/8user/archive/2008/11/08/1329436.html
      

  4.   

    一般都是httpwebquest 然后用正则分析
      

  5.   

    用webclient把网页内容读取下来,然后去分析html得到自己有用的东西
     从网页抓取数据的一般方法
    http://blog.csdn.net/jinjazz/archive/2007/12/28/1996163.aspx
      

  6.   

    Souex.SpiderFramework是一个在.NET Framework2.0上开发的爬虫框架,实现了多线程的WEB信息采集系统。基于此框架,开发自定义爬虫程序非常简单。 Souex.SpiderFramework的目标是:让你在30分钟内写出一个强大的自定义爬虫。
    http://xixilive.blog.163.com/blog/static/55179690201061111251927/