抓取网页代码原理

哪位达人，能否给予解释一下抓取网页代码原理及相关的抓取网页代码示例？

就是分析 HTML代码代码你去参阅新闻小偷什么的
网络爬虫对网页而言,重在采集内容
从一个网页入口，分析链接，一层一层的遍历，或者从一组网页入口，或者从一个rss源列表开始爬rss；
获取每个页面的源码保存在磁盘或者数据库里；
遍历抓下来的网页进行处理，比如提取正文，消重等；
根据用途把处理后的文本进行索引、分类、聚类等操作
把远方文件下载，或者直接读取网页文件，放在String里
用HttpWatch或其他抓包软件来抓包,就一目了然了,然后写代码访问他的地址,记得带上需要的参数,cookie等等...
you can use the google
参考一下：
http://blog.csdn.net/sxldfang/archive/2010/04/12/5478078.aspx