1:如果我想抓取新浪科技类的文章,怎么把这一类的文章的列表都抓取下来?
2:然后点击某一条记录又怎么抓取该记录的内容,其它的广告什么的不要显示,只要正文的信息。
谢谢。

解决方案 »

  1.   

    用xmlhttp或.net的HttpWebRequest和HttpWebResponse
    网上搜索下例子
      

  2.   

    分析它的结构,找出正文上层容器的特征(一般的容器可能是table 或 div 特症比如是:id、name 、class等,与众不同的,或是规律性的),然后用正则式或是截取子串的方式去掉多余的内容。取得网页内容可以用xmlhttp的方式获得。说起来简单,做起来不容易 ,建议你可以在网上搜一下相关的资料,然后自己多尝试。在这里是没有人可以跟你说清楚的。