我现在想要用爬虫抓取一个网页上的URL之前的网站是固定的ent.qq.com/a/xxxxxxxxxxxx是会变的,问下我的正则表达式该怎么写?

解决方案 »

  1.   


    (?i)ent\.qq\.com\/a\/[^\s'""<>]+
      

  2.   

    @"(?<=http://)[ent.qq.com\/a\/.* ]+[^/]"问下我是这么写的貌似抓到的URL会出现
    ent.qq.com/s
    ent.qq.com/mov
    mat1
    mai
    ent.qq.com/"
    ent.qq.com/s
    ent.qq.com/mov等
    这种之类的URL是不是我写的正则表达式没起到作用呢?ent.qq.com/mov
    ent.qq.com/tvent.qq.com/w
      

  3.   

    网页是这个http://ent.qq.com/movie/news_index.shtml你可以看下源码我希望的就是能把每天新闻里面的URL抓取下来。比方第一个新闻是:新《超人》明上映:再见了,那个内裤青年
    我鼠标点进去不是有个新网页打开的么,网址是http://ent.qq.com/a/20130618/022801.htm
    我就要把这些新闻的每一条http://ent.qq.com/a/20130618/022801.htm这个东西给抓取下来。我看了下之前貌似都是一样的http://ent.qq.com/a/+后面的正则表达式有点写不太来
    小弟刚开始学C#没多久还请各位大神多多关照哈,我都会结贴给分的ent.qq.com/mov
    ent.qq.com/tvent.qq.com/w1.贴一下网站的源码
    2.你要得到的结果样式
      

  4.   

    [ent.qq.com\/a\/.* ]这个中括号算怎么回事?把它去掉
      

  5.   

    @"(?<=http://)[ent.qq.com\/a\/.* ]+[^/]"问题 1 注意符号转义 2 []内表示里面的任意字符@"(?<=http://)ent\.qq\.com\/a\/[^\s'""/]"
      

  6.   

    我还是没怎么搞明白...
    弱弱的问一句,既然前面是固定的为什么不用substring呢