我想采集网页中的url,现在用的是在这个正则,但是采集回来的网页中都会有像这种情况的,后面都带着反斜杠:
<A href='http://nl.hldyz.com/',抓回来就是nl.hldyz.com/。
请问怎么才能在正则中去掉网址最后面的反斜杠,而又不至于将这种网址屏蔽掉:www.0376bg.com/1.htm,我想保留这样的网址。列出正则:'<\s*a\s.*?href\s*=\'http://\s*([\"\'])?(?(1) (.*?)\\1 | ([^\s\>]+))\''isx
<A href='http://nl.hldyz.com/',抓回来就是nl.hldyz.com/。
请问怎么才能在正则中去掉网址最后面的反斜杠,而又不至于将这种网址屏蔽掉:www.0376bg.com/1.htm,我想保留这样的网址。列出正则:'<\s*a\s.*?href\s*=\'http://\s*([\"\'])?(?(1) (.*?)\\1 | ([^\s\>]+))\''isx
[1206] => http://hl180.sinaapp.com/
[1221] => http://www.pkwz.net/988
[1224] => http://www.wt77.te580.net/666.html
我想保留[1224]和[1221],但不想要[1206]后面加的那个斜杠。