如下地址:
http://www.bjrc.com/Search/searchlist.asp?vPosSet=0&vPosSelect=0&vKeyword=&issueDate=03&imageField2.x=12&imageField2.y=14
这是北京人才的一个职位列表页
我要用正则提取出职位名称,公司名称,工作地点,发布时间
然后写入一个文本文件,格式如下:
1 职位:XXXX 公司:XXX 地点:XXX 时间:XXX
2 ....
3 ....
第一页内容提取完后,转第2页,一直到最后一页
不考虑其中重复的公司或职位名,不用考虑如何读出网页内容,假设网页内容是 string Html
对正则实在是不了解,还请各位帮帮忙.
新人,分不多.
http://www.bjrc.com/Search/searchlist.asp?vPosSet=0&vPosSelect=0&vKeyword=&issueDate=03&imageField2.x=12&imageField2.y=14
这是北京人才的一个职位列表页
我要用正则提取出职位名称,公司名称,工作地点,发布时间
然后写入一个文本文件,格式如下:
1 职位:XXXX 公司:XXX 地点:XXX 时间:XXX
2 ....
3 ....
第一页内容提取完后,转第2页,一直到最后一页
不考虑其中重复的公司或职位名,不用考虑如何读出网页内容,假设网页内容是 string Html
对正则实在是不了解,还请各位帮帮忙.
新人,分不多.
而且就算在知道html代码的情况下,根据html分析出了提取方式,一旦html代码改变,就得重新分析除非对方网站上有向外公开的xml(rss)
但是,你知道类似 职位这样的东西是在哪个html标记中吗?table?div?li?span?
不知道这个就没法做还有不能不考虑html的变化,比如原本要提取的信息是放在table中的,后来改成放在div中,怎么办?原来的解析代码就实效了
至于他以前在table里,后来改div不去考虑他
花钱我就不来CSDN了
主要是这高人比较多,我希望能学习学习