哪位达人,能否给予解释一下抓取网页代码原理及相关的抓取网页代码示例?

解决方案 »

  1.   

    就是分析 HTML代码代码你去参阅新闻小偷什么的
      

  2.   

    网络爬虫对网页而言,重在采集内容
    从一个网页入口,分析链接,一层一层的遍历,或者从一组网页入口,或者从一个rss源列表开始爬rss;  
    获取每个页面的源码保存在磁盘或者数据库里;  
    遍历抓下来的网页进行处理,比如提取正文,消重等;  
    根据用途把处理后的文本进行索引、分类、聚类等操作
      

  3.   

    把远方文件下载,或者直接读取网页文件,放在String里
      

  4.   

    用HttpWatch或其他抓包软件来抓包,就一目了然了,然后写代码访问他的地址,记得带上需要的参数,cookie等等...
      

  5.   

    you can use the google 
      

  6.   

    参考一下:
    http://blog.csdn.net/sxldfang/archive/2010/04/12/5478078.aspx