http://beijing.haowangpu.com/dishangshangpu/shangyejiedishang/   ==列表页
我想采集这个列表的数据。但是这个标题只有几个字段的信息。
我想要得到的是
http://beijing.haowangpu.com/dishangshangpu/shangyejiedishang/201010/23_64328.html/  ==内容页
这个页面有很多的字段。
我要怎么获取呢,那是不是要用wenrequest多次请求内容页
然后根据正则获取具体的字段信息然后插入数据库呢。
请有经验的指教、、、

解决方案 »

  1.   

    http://beijing.haowangpu.com/dishangshangpu/shangyejiedishang/201010/23_64328.html
    内容页是这个、上面的写错了。
      

  2.   

    是不是不断的请求http://beijing.haowangpu.com/dishangshangpu/shangyejiedishang/201010/23_64328.html
    这样的内容页。
      

  3.   

    不用多次请求内容吧,请求一次,然后保存在string里面,再去匹配过滤,你可以一些专门的工具,如火车头采集器
      

  4.   

    如果是自己采集,则是通过页面URL获取网页内容,然后对内容进行匹配过滤,得到自己想要的部分. 某些网页可能需要登录才能采集,这个时候则需要同时提交用户名和密码,保存cookies. 具体的方法google下就有很多了.
    利用第三方采集工具则最有名的就是火车头了,不过需要熟悉下使用方法.主要是些采集规则.
      

  5.   

    webclient抓取,循环操作,可使用timer
    多线程
    有些执行后获取的数据不能抓取
      

  6.   

    这个东西可以这样啊
    webrequest,webresponse 
    这两个类足够了
    还有一个东西。我今天新学习的..叫 Winista.HtmlParser.dll这些足够你用了