我想采集网页中的url,现在用的是在这个正则,但是采集回来的网页中都会有像这种情况的,后面都带着反斜杠:
<A href='http://nl.hldyz.com/',抓回来就是nl.hldyz.com/。
请问怎么才能在正则中去掉网址最后面的反斜杠,而又不至于将这种网址屏蔽掉:www.0376bg.com/1.htm,我想保留这样的网址。列出正则:'<\s*a\s.*?href\s*=\'http://\s*([\"\'])?(?(1) (.*?)\\1 | ([^\s\>]+))\''isx

解决方案 »

  1.   

    /<a\s*href='([^\']+)'/is   //这样不就行了 
      

  2.   

    不好使哇,还是会出现这种情况:
    [1206] => http://hl180.sinaapp.com/
    [1221] => http://www.pkwz.net/988
    [1224] => http://www.wt77.te580.net/666.html
    我想保留[1224]和[1221],但不想要[1206]后面加的那个斜杠。
      

  3.   

    rtrim($url,'/') ;  //这样处理下就可以了