http://beijing.haowangpu.com/dishangshangpu/shangyejiedishang/ ==列表页
我想采集这个列表的数据。但是这个标题只有几个字段的信息。
我想要得到的是
http://beijing.haowangpu.com/dishangshangpu/shangyejiedishang/201010/23_64328.html/ ==内容页
这个页面有很多的字段。
我要怎么获取呢,那是不是要用wenrequest多次请求内容页
然后根据正则获取具体的字段信息然后插入数据库呢。
请有经验的指教、、、
我想采集这个列表的数据。但是这个标题只有几个字段的信息。
我想要得到的是
http://beijing.haowangpu.com/dishangshangpu/shangyejiedishang/201010/23_64328.html/ ==内容页
这个页面有很多的字段。
我要怎么获取呢,那是不是要用wenrequest多次请求内容页
然后根据正则获取具体的字段信息然后插入数据库呢。
请有经验的指教、、、
内容页是这个、上面的写错了。
这样的内容页。
利用第三方采集工具则最有名的就是火车头了,不过需要熟悉下使用方法.主要是些采集规则.
多线程
有些执行后获取的数据不能抓取
webrequest,webresponse
这两个类足够了
还有一个东西。我今天新学习的..叫 Winista.HtmlParser.dll这些足够你用了