如下地址:
http://www.bjrc.com/Search/searchlist.asp?vPosSet=0&vPosSelect=0&vKeyword=&issueDate=03&imageField2.x=12&imageField2.y=14
这是北京人才的一个职位列表页
我要用正则提取出职位名称,公司名称,工作地点,发布时间
然后写入一个文本文件,格式如下:
1 职位:XXXX 公司:XXX 地点:XXX 时间:XXX
2 ....
3 ....
第一页内容提取完后,转第2页,一直到最后一页
不考虑其中重复的公司或职位名,不用考虑如何读出网页内容,假设网页内容是 string Html
对正则实在是不了解,还请各位帮帮忙.
新人,分不多.

解决方案 »

  1.   

    忘了说了,winform,或控制台均可
      

  2.   

    是从url中提取?还是从页面中提取?
      

  3.   

    这个难度比较大,如果不知道页面产生的html代码,根本就没有办法做
    而且就算在知道html代码的情况下,根据html分析出了提取方式,一旦html代码改变,就得重新分析除非对方网站上有向外公开的xml(rss)
      

  4.   

    页面内容假设我已经得到了,string Html 就是我读出的网页内容
      

  5.   

    我知道,你已经得到了html代码
    但是,你知道类似 职位这样的东西是在哪个html标记中吗?table?div?li?span?
    不知道这个就没法做还有不能不考虑html的变化,比如原本要提取的信息是放在table中的,后来改成放在div中,怎么办?原来的解析代码就实效了
      

  6.   

    当然知道了,打开那个页面,查看源码不就知道了吗?
    至于他以前在table里,后来改div不去考虑他
      

  7.   

    呵呵,分都没多少,更别说钱了
    花钱我就不来CSDN了
    主要是这高人比较多,我希望能学习学习
      

  8.   

    老大有msn吗?给我个短消息,绝不骚扰!