关于web数据采集

想做一个web数据采集的工具，有没有哪位大大做过这方面的给个思路，或者推荐相关书籍也可以！

花几天学学正则这种基本上都是苦力活。或者基于dom，但是效率和灵活性可能不高
网络爬虫，把网页的内容获取下来，  上CSDN 下载频道上挺多的。
可通过XML或webrequest实现数据采集
参考
http://www.cnblogs.com/stephencat/archive/2006/12/11/589112.html
http://www.cnblogs.com/overred/archive/2007/08/06/OverredGather.html
http://www.cnblogs.com/8user/archive/2008/11/08/1329436.html
一般都是httpwebquest 然后用正则分析
用webclient把网页内容读取下来,然后去分析html得到自己有用的东西
从网页抓取数据的一般方法
http://blog.csdn.net/jinjazz/archive/2007/12/28/1996163.aspx
Souex.SpiderFramework是一个在.NET Framework2.0上开发的爬虫框架，实现了多线程的WEB信息采集系统。基于此框架，开发自定义爬虫程序非常简单。 Souex.SpiderFramework的目标是：让你在30分钟内写出一个强大的自定义爬虫。
http://xixilive.blog.163.com/blog/static/55179690201061111251927/