谁做过网络数据采集,进来说说

网络数据采集，比如说我要根据职位关键词读取智联的职位信息，这个职位详细包括详细的结果（如公司名称、规模、职位名称、要求、联系方式等），那么对于这种数据的采集，你们都是怎么做的呢？
我目前只是根据URL下载HTML结果，然后根据标记（比如说公司名称、职位名称一般都以唯一的ID存储于DIV中，这时我就使用查找字符串的方式定位该DIV,然后再解析该字段内容）解析HTML字符串