网络数据采集,比如说我要根据职位关键词读取智联的职位信息,这个职位详细包括详细的结果(如公司名称、规模、职位名称、要求、联系方式等),那么对于这种数据的采集,你们都是怎么做的呢?
我目前只是根据URL下载HTML结果,然后根据标记(比如说公司名称、职位名称一般都以唯一的ID存储于DIV中,这时我就使用查找字符串的方式定位该DIV,然后再解析该字段内容)解析HTML字符串

解决方案 »

  1.   

    主要流程应该差不多,具体的细节可能不太一样,获取网页有的使用HttpWebRequest提取的时候,可以使用正则
      

  2.   

    网站的数据格式一般很少变更,我都用HttpWebRequest+正则来获取
      

  3.   

    很简单 定位批量获取  QQ交友通 是我跟网友一起做的 有问题 QQ 78157333
      

  4.   

    先帮你顶吧。因为我做的不高明。
    1,用mshtml 这个组件 得到cs版本的浏览器
    2,得到网页上的html的源码
    3,遍历读取。